- 18 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) Kapitel 3: Bedingte Wahrscheinlichkeiten und Unabhängigkeit Wird bei der Durchführung eines stochastischen Experiments bekannt, daß ein Ereignis A eingetreten ist, so ändert sich im allgemeinen die Wahrscheinlichkeit für das Eintreten eines weiteren Ereignisses B. Hat z.B. jemand bereits das 60. Lebensjahr erreicht (Ereignis A), so sind für ihn im allgemeinen die Chancen besser, (mindestens) 70 Jahre alt zu werden (Ereignis B), als für eine zufällig aus der Bevölkerung ausgewählte Person. Dies führt zum Begriff der bedingten Wahrscheinlichkeit. 3.1 Beispiel : Ein Pokerspieler kann für einen kurzen Augenblick einem Mitspieler in die Karten sehen. Dieser Moment ist zu kurz, um einzelne Karten zu identifizieren, aber er stellt fest, daß alle Karten dieses Mitspielers „rot“ sind (d.h. die Farben der Karten sind „Herz“ oder „Karo“). Er weiß nun sicher, daß der Mitspieler nicht alle vier Könige haben kann, ein Ereignis, das ursprünglich von positiver Wahrscheinlichkeit war. Man hat auch das Gefühl, daß ein „Flush“ (alle Karten gehören einer Farbe an) nun wahrscheinlicher ist, als bevor die neue Information erhalten wurde. Veranschaulichen wir uns die Situation an Hand der relativen Häufigkeiten. Es sei B (z.B. = „Flush“) ein Ereignis, dessen Chance einzutreten unter der Bedingung, daß ein Ereignis A (z.B. = „rot“) beobachtet wurde, gemessen werden soll. Hierzu betrachten wir wieder eine Versuchsreihe der Länge n und studieren rh(B|A) : = n(B ∩ A) , n(A) die relative Häufigkeit von B unter der Bedingung A, d.h. den Bruchteil der Versuche, bei denen B und A zusammen eintreten, aus all denjenigen, bei denen A beobachtet wurde. Wir benötigen n(A) > 0, was , falls P(A) > 0 , für „hinreichend“ große n gewährleistet ist. rh(B|A) hängt wiederum von der jeweiligen Versuchsreihe ab, und ist deshalb keine feste Maßzahl für die Chance des Eintretens von B unter A. Hier hilft uns folgende - 19 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) 3.2 Empirische Beobachtung : Wie die relativen Häufigkeiten stabilisieren sich auch die bedingten relativen Häufigkeiten rh(B|A) für große n um einen spezifischen Wert zwischen 0 und 1. Dies führt in naheliegender Weise zum Begriff der bedingten Wahrscheinlichkeit von B unter der Bedingung A, kurz P(B|A), als Abstraktion der bedingten relativen Häufigkeit rh(B|A). Die relativen Häufigkeiten genügen der Gleichung : rh(B|A) = n(B ∩ A) n(A) = rh(B ∩ A) rh(A) . n n Wir fordern deshalb im w-theoretischen Modell folgende 3.3 Rechenregel : P(B|A) = P(B ∩ A) P(A) , falls P(A) > 0 , oder äquivalent dazu den 3.4 Multiplikationssatz : P(B∩ A) = P(B|A)P(A) . Hierdurch ist die Beziehung zwischen bedingten und „einfachen“ Wahrscheinlichkeiten geregelt. Der Multiplikationssatz gilt uneingeschränkt, falls wir von der Konvention: P(B|A)P(A) = 0 für P(A) = 0 Gebrauch machen, da in diesem Falle stets P(B ∩ A) = 0. Bemerkung : Die obige Rechenregel wird meist als Definition der bedingten Wahrscheinlich- keit verstanden, und dann der Multiplikationssatz hiervon abgeleitet. Dies führt jedoch zu logischen Unstimmigkeiten, wenn man, wie in vielen Anwendungsbeispielen, ein unbekanntes P(B ∩ A) aus bekannten P(B|A) und P(A) mit Hilfe des Multiplikationssatzes berech- nen will, wo doch dann P(B|A) erst via P(B ∩ A) und P(A) definiert ist. - 20 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) 3.5 Einige Eigenschaften der bedingten Wahrscheinlichkeiten: (Ω Ω, P) sei ein diskreter W-raum und A ⊂ Ω ein Ereignis mit P(A) > 0. a) P( .|A) ist eine Wahrscheinlichkeit auf Ω, die auf A konzentriert ist, d.h. P(A|A) = 1. b) Insbesondere ist (A, P( .|A)) ein diskreter W-raum. c) Falls A ∩ B = ∅, dann P(B|A) = 0. d) P(B ∩ C|A) = P(B|A ∩ C) P(C|A) e) A1, . . . , An ⊂ Ω seien Ereignisse. Es gilt: P(A1 ∩ . . . ∩ An) = P(A1 | A2 ∩ . . . ∩ An) P(A2 | A3 ∩ . . . ∩ An) ⋅. . . ⋅ P(An-1 | An) P(An) (mit entsprechender Konvention, falls P(A2 ∩ . . . ∩ An) = 0). Beweis : Übung ! Fortführung von Beispiel 3.1: Poker : 52 Karten: 4 Farben zu je 13 Karten. Ein „Pokerblatt“ besteht aus 5 Karten. Falls jedes mögliche „Blatt“ gleich wahrscheinlich ist, gilt: P(Flush) = 13 4 ⋅ 5 52 = 396 199.920 ≈ 0,002 5 26 5 52 = 5 13 P(Flush|rot) = 2 ⋅ 5 26 = 5 P(rot) = 253 9.996 ≈ 0,025 9 230 ≈ 0,039. Die folgenden zwei Sätze finden ihre Anwendung vor allem bei sogenannten zweistufigen Experimenten, bei denen die W-struktur der zweiten Stufe vom Ausgang der ersten Stufe abhängt, d.h. durch entsprechende bedingte Wahrscheinlichkeiten beschrieben wird. 3.6 Satz von der totalen Wahrscheinlichkeit: A1, A2, . . . sei eine endliche oder abzählbare Zerlegung von Ω, d.h. Ai ∩ Aj = ∅ für i ≠ j und UA n = Ω, n dann gilt für jedes Ereignis B: P(B) = ∑ P(B | An) P(An) n - 21 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) Beweis : U (B ∩ A n ) = B∩ n UA n = B. (B ∩ Ai) ∩ (B ∩ Aj) = ∅ für i ≠ j n ⇒ P(B) = ∑ P(B ∩ A n ) = n ∑ P(B | An) P(An) . n 3.7 Bayessche Regel : A1, A2, . . . sei eine endliche oder abzählbare Zerlegung von Ω, dann gilt für jedes Ereignis B mit P(B) > 0 : P(An|B) = P(B | A n ) P(A n ) ∑ P(B | A j ) P(A j ) für alle n . j Beweis : P(An|B) = P(B ∩ A n ) P(B | A n ) P(A n ) = P(B) P(B) 3.8 Definition : (P(An))n heißt a priori-Verteilung (P(An|B))n ⇒ Behauptung. (vor dem Eintreten von B) und a posteriori-Verteilung (nach dem Eintreten von B) . 3.9 Beispiel : In einer Stadt werden Tuberkulose - Untersuchungen durch Röntgen – Aufnahmen durchgeführt. Annahmen : a) 90% der Kranken werden als infiziert erkannt. b) 1% der Gesunden werden als „Tbc – verdächtig“ registriert. c) 0,1% der gesamten Bevölkerung ist an Tbc erkrankt. Fragen : Was ist die Wahrscheinlichkeit dafür, daß α) ein Einwohner als „Tbc – verdächtig“ registriert wird ? β) ein als „Tbc – verdächtig“ registrierter Einwohner wirklich krank ist ? Lösung : Wir haben es mit einem zweistufigen Experiment zu tun. 1. Stufe : Ein Einwohner ist entweder „krank“ (Ereignis: A1) oder „gesund“ (Ereignis: A2). 2. Stufe : Er wird entweder als „Tbc – verdächtig“ (Ereignis: B) registriert oder nicht. Modell : Ω = {krank, gesund} × {verdächtig, nicht verdächtig}; ⇒ Ω = A1 ∪ A2 . - 22 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) P(A1) = 0,001, P(A2) = 0,999, P(B|A1) = 0,9, P(B|A2) = 0,01 . α) Satz von der totalen Wahrscheinlichkeit (unbedingte Wahrscheinlichkeit von B): P(B) = P(B|A1) P(A1) + P(B|A2) P(A2) = 0,9⋅0,001 + 0,01⋅0,999 = 0,01089 ≈ 0,01. β) Bayessche Regel (bedingte Wahrscheinlichkeiten der 1. Stufe, falls der Ausgang der 2. Stufe bekannt) : P(A1|B) = P(B | A 1 ) P(A1 ) 90 = ≈ 0,083 . 1089 P(B) a priori-Verteilung : (P(A1), P(A2)) = (0,001; 0,999) a posteriori-Verteilung : (P(A1|B), P(A2|B)) = (0,083;0,917) A und B seien nun Ereignisse mit P(A), P(B) > 0 . (α) P(A|B) > P(A) ⇔ P(B|A) > P(B) (β) P(A|B) < P(A) ⇔ P(B|A) < P(B) (γ) P(A|B) = P(A) ⇔ P(B|A) = P(B) Man zeigt leicht: 3.10 Definition : Die Ereignisse A und B heißen positiv(negativ) korreliert, falls (α) (falls (β)) zutrifft. 3.11 Beispiele : a) Wenn 0 < P(A) < 1, dann ist A mit sich selbst positiv korreliert : P(A |A ) = 1 > P(A) ; A und A sind negativ korreliert : P(A | A ) = 0 < P(A) . b) Beim Pokerspiel sind „Flush“ und „rot“ positiv korreliert, während „vier Könige“ und „rot“ negativ korreliert sind. (γ) bedeutet, daß das Eintreten eines der beiden Ereignisse keinen Einfluß auf die Wahrscheinlichkeit des Eintretens des anderen hat. Nach dem Multiplikationssatz gilt in diesem Falle: (δ) P(A ∩ B) = P(A)⋅P(B) . - 23 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) Für (δ) wird die Einschränkung P(A), P(B) > 0 nicht länger benötigt. Wir definieren deshalb: 3.12 Definition : Ereignisse A und B heißen (stochastisch) unabhängig, wenn P(A ∩ B) = P(A)⋅P(B) . 3.13 Verallgemeinerung der Definition : n Ereignisse A1, A2 , . . . , An heißen (vollständig) unabhängig, wenn für alle 1 ≤ j1 < j2 < . . . < jk ≤ n , 2 ≤ k ≤ n , P(A j1 ∩ A j2 ∩ . . . ∩ A jk ) = P( A j1 )⋅P( A j2 ) ⋅. . .⋅ P( A jk ) . Übung : Im Falle P(A j1 ∩ A j2 ∩ . . . ∩ A jk ) > 0 heißt das, k daß P( A jl | I A jm ) = P( A jl ) . m =1 m≠l 3.14 Bemerkung : Die (vollständige) Unabhängigkeit von A1, . . . , An impliziert: (1) P(A1 ∩ . . . ∩ An) = P(A1) ⋅. . .⋅ P(An) , und (2) P(Ai ∩ Aj) = P(Ai)⋅P(Aj) für i ≠ j (paarweise Unabhängigkeit) Weder (1) noch (2) , allein (wenn n > 2) oder zusammen (wenn n > 3), haben die (vollständige) Unabhängigkeit zur Folge. 3.15 Übung : A1, . . . , An sind genau dann unabhängig, wenn P(B1 ∩ . . . ∩ Bn) = P(B1) ⋅ . . .⋅ P(Bn) für jede mögliche Wahl von B1, . . . , Bn , wobei Bj = Aj oder A j , 1 ≤ j ≤ n . 3.16 Bemerkung : a) Wenn n Ereignisse bei einem zufälligen Experiment physisch (d.h. von der Versuchsanordnung her) unabhängig sind, dann ist das beschreibende w-theoretische Modell nur dann realistisch, wenn diese auch im Modell (stochastisch) unabhängig sind. Beispiel : Zweimaliges Würfeln: Laplacescher W-raum mit Ω = {1, 2, 3, 4, 5, 6}2 . | Ω | = 36. Es seien A = „1. Wurf: 2“ , B = „2. Wurf: 5“ - 24 (Kapitel 3 : Bedingte Wahrscheinlichkeiten und Unabhängigkeit) A und B sind unabhängig: | A | = | B | = 6 ⇒ P(A) = P(B) = P(A ∩ B) = P((2,5)) = 1 36 6 36 = 1 6 , = P(A)P(B) . b) Andererseits braucht einer stochastischen Unabhängigkeit im Modell nicht unbedingt eine physische Unabhängigkeit in der Realität entsprechen. Beispiel : Zweimaliges Würfeln. Es sei C = „Die Summe beider Würfe ist 7“ C = {(1, 6); (2, 5); (3, 4); (4, 3); (5, 2); (6, 1) } ⇒ | C | = 6 ⇒ P(C) = 16 . P(B ∩ C) = P((2,5)) = 1 36 = P(B)P(C) , d.h. B und C sind unabhängig. Analog : A und C sind unabhängig, d.h. A,B,C sind paarweise unabhängig, aber nicht (vollständig) unabhängig: P(A ∩ B ∩ C) = P((2,5)) = 1 36 ≠ P(A)⋅P(B)⋅P(C).