KAPITEL 6 BEDINGTE WAHRSCHEINLICHKEITEN. UNABHÄNGIGKEIT In diesem Kapitel geht es zunächst um das Studium der bedingten Wahrscheinlichkeitsverteilungen, relativ zu einem Ereignis A. Diese elementare Situation wird in allen einführenden Werken zur Wahrscheinlichkeitsrechnung untersucht. Weiter wird in diesem Kapitel der Begriff der Unabhängigkeit behandelt, und zwar nicht nur für Ereignisse, sondern auch für Familien von Ereignissen. Dabei wird auch der wichtige Begriff einer Folge von paarweise unabhängigen Zufallsvariablen eingeführt. 1. Bedingte Wahrscheinlichkeiten. — Nehmen wir einmal an, die Seiten mit gerader Augenzahl eines sechsseitigen Würfels seien weiss gefärbt, die mit ungerader Augenzahl hingegen schwarz. Nun wird der Würfel geworfen; von weitem kann man erkennen, dass eine weisse Seite oben liegt; wie gross ist dann die Wahrscheinlichkeit, dass man eine sechs erzielt hat? Jeder wird auf diese Frage mit “1/3” und nicht mit “1/6” antworten. In der Tat wird durch die Beobachtung des Auftretens einer weissen Seite die Gewichtung der Ereignisse verändert. Man kann sich nicht mehr auf die Gleichverteilung P auf der Menge Ω = {1, 2, . . . , 6} beziehen, sondern man wird jeder der Zahlen 2, 4, 6 das Gewicht 1/3 geben, dagegen jeder der Zahlen 1, 3, 5 das Gewicht 0. Um die neue Information A es ist eine gerade Zahl aufgetreten , zu berücksichtigen, wird man also eine neue Gewichtung einführen, die mit P{ . | A} bezeichnet wird. Sie wird definiert durch P{{i} | A} = 1/3, falls i = 2, 4, 6; 0, sonst. Wegen P(A) = 1/2 gilt also P{{i} | A} = P({i} ∩ A) , P(A) für alle i = 1, 2, . . . , 6. Dieses Spielbeispiel motiviert die nachfolgende Definition einer bedingten Wahrscheinlichkeit. 66 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. Für dieses ganze Kapitel sei nun ein Wahrscheinlichkeitsraum (Ω, A, P) vorgegeben, und die Buchstaben A, B, C, . . . (mit oder ohne Indices) bezeichnen Ereignisse (d.h. Elemente der σ-Algebra A). Theorem und Definition 1.1. — Es sei A ein Ereignis mit der Wahrscheinlichkeit P(A) > 0. Dann ist die durch (1.1) P(B | A) = P(B ∩ A) , P(A) definierte Abbildung P( . | A), die für alle B aus A definiert ist, eine Wahrscheinlichkeitsverteilung auf (Ω, A). Man bezeichnet sie als die bedingte Wahrscheinlichkeitsverteilung relativ zu A, oder kurz: die A-bedingte Wahrscheinlichkeitsverteilung. P(Ω ∩ A) = 1. Ist andererseits Beweis. — Zunächst einmal gilt P(Ω | A) = P(A) (Bn ) eine Folge von paarweise disjunkten Ereignissen, so gilt dies auch für die Folge (A ∩ Bn ). Daher hat man P( n A ∩ Bn ) P(A ∩ n Bn ) = P( Bn | A) = P(A) P(A) n P(A ∩ Bn ) P(A ∩ Bn ) = n = = P(Bn | A), P(A) P(A) n n und somit ist P(· | A) tatsächlich eine Wahrscheinlichkeitsverteilung. Zu beachten ist, dass die bedingte Wahrscheinlichkeit relativ zu A von A getragen wird; anders gesagt, es gelten die Beziehungen A ∩ B = ∅ ⇒ P(B | A) = 0 und B ⊃ A ⇒ P(B | A) = 1. Satz 1.2 (Formel für doppelte Bedingungen). — Es seien A1 und A2 Ereignisse derart, dass die Wahrscheinlichkeit P(A1 A2 ) strikt positiv ist. Dann gilt für jedes Ereignis A3 P(A1 A2 A3 ) = P(A3 | A1 A2 )P(A2 | A1 )P(A1 ). Beweis. — Diese Identität folgt unmittelbar aus der Definition der bedingten Wahrscheinlichkeiten. Tatsächlich ist ja P(A1 ) > 0, da A1 A2 eine strikt positive Wahrscheinlichkeit hat. Daher kann man schreiben: P(A1 A2 A3 ) = P(A3 | A1 A2 )P(A1 A2 ) = P(A3 | A1 A2 )P(A2 | A1 )P(A1 ). Die obige Formel lässt sich unmittelbar auf den Fall von mehr als zwei Ereignissen übertragen. Ist n ≥ 2 und ist A1 , A2 , . . . , An eine Folge von n Ereignissen, wobei P(A1 A2 . . . An−1 ) > 0 ist, so gilt die Gleichung (1.2) P(A1 A2 . . . An ) = P(An | A1 . . . An−1 )P(An−1 | A1 . . . An−2 ) · · · P(A2 | A1 )P(A1 ). 2. VOLLSTÄNDIGE SYSTEME VON EREIGNISSEN 67 2. Vollständige Systeme von Ereignissen. — Man bezeichnet eine Folge (An ) von Ereignissen als vollständiges System, wenn gilt: (i) i =j ⇒ Ai ∩ A j = ∅ (die Ereignisse An sind paarweise unverträglich); (ii) P( n An ) = n P(An ) = 1 (fast sicher tritt eines der Ereignisse An ein). Speziell ist also jede aus Elementen von A bestehende abzählbare Partition von Ω ein vollständiges System. In dieser Definition wird nurverlangt, dass die Wahrscheinlichkeit des komplementären Ereignisses zu n An zu Null wird — es muss deswegen aber nicht unmöglich sein. Theorem 2.1 (Formel von Bayes). — Es sei (An ) ein vollständiges System von Ereignissen, die alle eine positive Wahrscheinlichkeit haben. Dann gilt für jedes Ereignis B P(B | An )P(An ). P(B) = n Gilt ausserdem noch P(B) > 0, so hat man für jedes k die Gleichheit P(B | Ak )P(Ak ) . P(Ak | B) = n P(B | An )P(An ) Beweis. — Setzt manΩ = n An , so gelten für jedes Ereignis B die Beziehungen BΩ = n BAn undP(BΩc ) = 0.Daher ist P(B) = P(BΩ ) + P(BΩc ) = P( n BAn ) = n P(BAn ) = n P(B | An )P(An ). Schliesslich kann man P(Ak | B) = P(B | Ak )P(Ak ) P(BAk ) = P(B) n P(B | An )P(An ) schreiben, falls P(B) > 0 ist. Beispiel (das Problem der Falschspielers). — Ein Spieler spielt Kopf oder Zahl , wettet auf Zahl und erhält Zahl . Wie gross ist die Wahrscheinlichkeit, dass er ein Falschspieler ist? Kann man diese Frage überhaupt beantworten? Es bezeichne Ω die Menge aller Stichproben und es seien z, k, e, f jeweils die Ereignisse man erhält Zahl , man erhält Kopf , der Spieler ist ehrlich , der Spieler spielt falsch . Um die Menge {z, k, e, f } mit einer Wahrscheinlichkeit zu bewerten, kann man zunächst davon ausgehen, dass P(z | e) = P(k | e) = 1/2 gilt. Ebenso kann man vereinbaren, dass P(z | f ) gleich 1 ist (der Falschspieler kann Zahl erzielen, falls er will). Somit wäre also P(k | f ) = 0. Schliesslich setzt man P(f ) = x (0 ≤ x ≤ 1) an. Aus der Formel von Bayes folgt dann P(f | z) = x 2x P(z | f )P(f ) = = . P(z | f )P(f ) + P(z | l)P(l) x + (1/2)(1 − x) x+1 68 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. Man kann also eine numerische Antwort auf die gestellte Frage nur dann geben, wenn man den Anteil x der Falschspieler in der Bevölkerung kennt. Man erhält also eine mehr oder weniger tröstliche Auskunft, je nachdem, wie man die Ehrlichkeit seiner Mitmenschen einschätzt! Beispiel. — Ein Individuum wird zufällig aus einer Population von Menschen ausgewählt, von der man weiss, dass 10−4 der Personen an Aids leiden. Man führt einen Aids-Test aus. Wenn dieser Test ein positives Resultat zeigt, wie gross ist dann die Wahrscheinlichkeit, dass das Individuum tatsächlich an Aids erkrankt ist? Wir betrachten die Ereignisse A1 : das Individuum ist an Aids erkrankt , und A2 : das Individuum ist nicht an Aids erkrankt , sowie B : der Aids-Test liefert ein positives Resultat . Aus den Daten des Problems liefern uns P(A1 ) = 10−4 , und somit P(A2 ) = 0, 9999. Nun muss man noch P(B | A1 ) und P(B | A2 ) kennen, d.h. die Wahrscheinlichkeit dafür, ein positives Testergebnis zu erhalten, je nachdem, ob das Individuum an Aids erkrankt ist oder nicht. Diese Wahrscheinlichkeiten kann man durch vorher durchgeführte Experimente bestimmen. Nehmen wir beispielsweise an, dass P(B | A1 ) = 0, 99 und P(B | A2 ) = 0, 001 (die Tests sind nicht fehlerfrei). Damit findet man also P(A1 | B) = 10−4 × 0, 99 ≈ 0, 09. 10−4 × 0, 99 + 0, 9999 × 0, 001 Man wird überrascht sein, wie klein diese Wahrscheinlichkeit ist! Dies liegt an der grossen Zahl diagnostischer Fehler, die von dem riesigen Anteil nicht erkrankter Personen herrühren; es ist ja P(A2 ) >> P(A1 ). Man sieht: das Aufdecken von Krankheiten ist teuer! 3. Systeme von bedingten Wahrscheinlichkeiten. — Es gibt viele Situationen, bei denen experimentelle Beobachtungen zu einem System von bedingten Wahrscheinlichkeiten führen, die auf (Mengen von) Folgen von Stichproben definiert sind. Man ist dann daran interessiert, daraus eine Wahrscheinlichkeitsverteilung auf dem Raum aller Folgen herzuleiten. Hier wird zunächst ein solches Resultat für endliche Folgen behandelt. In den Aufgaben 1–9 von Kapitel 10 wird dieses Resultat auf die Situation unendlicher Folgen erweitert. Wir geben uns eine ganze Zahl n ≥ 2 und eine endliche oder abzählbare Menge S vor. Wir betrachten nun als Basismenge Ω = S n und für jedes i = 1, 2, . . . , n definieren wir die Projektion Xi : Ω → S als diejenige Abbildung, die jedem Element ω = (x1 , x2 , . . . , xn ) von Ω seine i-te Koordinate xi zuordnet, also Xi (ω) = xi . 3. SYSTEME VON BEDINGTEN WAHRSCHEINLICHKEITEN 69 In vielen Fällen wird (x1 , x2 , . . . , xn ) eine Folge von Werten sein, die ein zufallsgesteuertes System im Laufe der Zeit (hier diskret betrachtet) annimmt. Die Zufallsvariable Xi gibt dann Auskunft über den Zustand des Systems zum Zeitpunkt i. Für das folgende Theorem denken wir uns eine Wahrscheinlichkeitsverteilung p1 auf S gegeben, sowie eine Folge q2 , . . . , qn von Funktionen mit nichtnegativen reellen Werten, die jeweils auf S 2 , . . . , S n definiert sind, wobei für jedes i = 2, . . . , n und jede Folge (x1 , . . . , xi−1 ) von S i−1 die Gleichheit qi (x1 , . . . , xi−1 , x) = 1. (3.1) x∈S gelten soll. Theorem 3.1. — Sind eine Wahrscheinlichkeitsverteilung p1 auf S und eine Familie von Funktionen (qi ) gegeben, die den Bedingungen (3.1) genügen, so gibt es genau ein Wahrscheinlichkeitsmass P auf (Ω, P(Ω)), das folgende Eigenschaften hat: (i) P{X1 = x1 } = p1 (x1 ) für alle x1 ∈ S; (ii) P{Xi+1 = xi+1 | X1 = x1 , . . . , Xi = xi } = qi+1 (x1 , . . . , xi , xi+1 ) für alle i = 1, . . . , n − 1 und jedes (x1 , . . . , xi , xi+1 ) ∈ S i+1 , für das mit P{X1 = x1 , . . . , Xi = xi } > 0 gilt. Es gilt also für jedes (x1 , . . . , xn ) ∈ S n (3.2) P{X1 = x1 , . . . , Xn = xn } = qn (x1 , . . . , xn ) · · · q2 (x1 , x2 )p1 (x1 ). Beweis. — Wir zeigen zunächst, dass eine solche Wahrscheinlichkeitsverteilung P, wenn sie denn existiert, den Bedingungen (3.2) genügen muss. Sei nämlich ω = (x1 , . . . , xn ) ein Element von Ω. Falls p1 (x1 ) = 0 ist, so gilt P{X1 = x1 } = 0, was P{X1 = x1 , . . . , Xn = xn } = 0 nach sich zieht und der Forderung (3.2) genügt. Ist allerdings p1 (x1 ) > 0, so bezeichnen wir mit xn+1 ein festes Element von S und setzen, der Bequemlichkeit halber, qn+1 (x1 , . . . , xn , xn+1 ) = 0. Nun kann man den kleinsten Index i + 1 mit 2 ≤ i + 1 ≤ n + 1 und qi+1 (x1 , . . . , xi+1 ) = 0 definieren. Dann gilt nacheinander P{X1 = x1 , X2 = x2 } = P{X2 = x2 | X1 = x1 }P{X1 = x1 } = q2 (x1 , x2 )p1 (x1 ) > 0, ··· = ··· P{X1 = x1 , . . . , Xi = xi } = P{Xi = xi | X1 = x1 , . . . , Xi−1 = xi−1 } × P{X1 = x1 , . . . , Xi−1 = xi−1 } = qi (x1 , . . . , xi ) × P{X1 = x1 , . . . , Xi−1 = xi−1 } > 0. 70 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. Folglich ist (3.3) P{X1 = x1 , . . . , Xi = xi } = qi (x1 , . . . , xi ) · · · q2 (x1 , x2 )p1 (x1 ). Ist i + 1 = n + 1, so ist (3.2) gezeigt. Im Falle i + 1 ≤ n erhält man P{X1 = x1 , . . . , Xi+1 = xi+1 } = P{Xi+1 = xi+1 | X1 = x1 , . . . , Xi = xi }P{X1 = x1 , . . . , Xi = xi } = qi+1 (x1 , . . . , xi+1 )P{X1 = x1 , . . . , Xi = xi } = 0 und somit P{X1 = x1 , . . . , Xn = xn } = 0. Wiederum ist (3.2) nachgewiesen. Nun werden wir noch zeigen, dass durch die Relation (3.2) tatsächlich eine Wahrscheinlichkeitsverteilung auf (Ω, P(Ω)) definiert wird und diese den Bedingungen (i) und (ii) genügt. Wir stellen erst einmal fest, dass das Ereignis {X1 = x1 , . . . , Xn = xn } nichts anderes ist, als die einelementige Teilmenge {(x1 , . . . , xn )} von Ω, die mittels der Formel (3.2) ein Gewicht erhält. Sei nun i fest gewählt mit 1 ≤ i ≤ n. Indem man nun die beiden Seiten der Formel (3.2) nacheinander bezüglich xn , . . . , xi+1 summiert und die Eigenschaft (3.1) ausnützt, erhält man die Formel (3.3). Damit ist speziell die Eigenschaft (i) nachgewiesen. Im Falle P{X1 = x1 , . . . , Xi = xi } > 0 impliziert die Formel (3.3) unmittelbar die Eigenschaft (ii) auf Grund der Definition der bedingten Wahrscheinlichkeit. 4. Unabhängige Ereignisse. — Es seien A und B zwei Ereignisse mit positiver Wahrscheinlichkeit. Im allgemeinen wird P(A | B) = P(AB)/P(B) verschieden von P(A) sein. Falls P(A | B) = P(A) ist, so sagt man, A sei unabhängig von B. Man stellt sofort fest, dass, wenn A unabhängig von B ist, umgekehrt auch B unabhängig von A ist. Man wird deshalb gerne eine Formulierung wählen, in der diese Symmetrie zum Ausdruck kommt, also etwa durch die Aussage “A und B sind gegenseitig unabhängig”. Die allgemeine Definition lautet: Definition. — Zwei Ereignisse A und B heissen unabhängig (bezüglich einer Wahrscheinlichkeitsverteilung P), wenn P(AB) = P(A) P(B) gilt. Satz 4.1. — Es seien A, B, C (mit oder ohne Indices) Ereignisse. (i) Wenn A und B unabhängig sind, so sind auch A und B c unabhängig. (ii) Wenn A und B sowie A und C unabhängig sind und ausserdem C ⊃ B gilt, so sind auch A und C \ B unabhängig. 4. UNABHÄNGIGE EREIGNISSE 71 (iii) Jedes Ereignis ist unabhängig von jedem Ereignis, das die Wahrscheinlichkeit 0 hat und ebenso unabhängig von jedem Ereignis, das die Wahrscheinlichkeit 1 hat. (iv) Ist (An ) eine Folge von paarweise disjunkten Ereignissen und ist A unabhängig von An fürjedes n, so ist A auch unabhängig von der disjunkten Vereinigung n An . Beweis. — Zum Beweis von (i), schreibt man einfach P(AB c ) = P(A \ AB) = P(A) − P(AB) = P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P(B c ). Eigenschaft (ii) ergibt sich aus P(A(C \ B)) = P(AC \ AB) = P(AC) − P(AB) = P(A)P(C) − P(A)P(B) = P(A)(P(C) − P(B)) = P(A)P(C \ B). Um schliesslich (iii) zu zeigen, seien B und C Ereignisse mit P(B) = 0 und P(C) = 1. Für jedes Ereignis A folgt aus der Inklusion AB ⊂ B die Gleichung 0 ≤ P(AB) ≤ P(B) = 0, und daher 0 = P(AB) = P(A)P(B). Um zu zeigen, dass A unabhängig von C ist, bemerkt man zunächst, dass A und C c unabhängig sind, da C c die Wahrscheinlichkeit 0 hat. Damit sind wegen Aussage (ii) aber auch A und C unabhängig. Der Nachweis der Eigenschaft (iv) macht nur Gebrauch von der σ-Additivität von Wahrscheinlichkeiten. Tatsächlich gilt P(A n An ) = P( n AAn ) = n P(AAn ) = n P(A)P(An ) = P(A)P( n An ). Bemerkung. — Es bezeichne jetzt DA die Klasse aller derjenigen Ereignisse, die von einem vorgegebenen Ereignis A unabhängig sind. Die gerade nachgewiesenen Eigenschaften kann man also auch dadurch ausdrücken, dass man sagt: DA ist eine Familie von Ereignissen, die Ω enthält und die unter Komplementierung, unter echter Differenz und unter abzählbaren disjunkten Vereinigungen abgeschlossen ist. Anders gesagt, DA ist ein Dynkin-System (cf. Kap. 2, § 3). Im allgemeinen ist DA allerdings nicht unter der Bildung von Durchschnitten abgeschlossen, ist also i.a. keine Algebra. (cf. nachfolgende Bemerkung 1.) Weitere Bemerkungen (i) In Satz 4.1 ist die erste Eigenschaft eine Folgerung aus der zweiten und dritten Eigenschaft (man wähle C = Ω). (ii) Zwei unverträgliche Ereignisse können nicht unabhängig sein, es sei denn, dass mindestens eines von ihnen die Wahrscheinlichkeit 0 hat. (iii) Die einzigen Ereignisse, die von sich selbst unabhängig sind, sind die Ereignisse mit den Wahrscheinlichkeiten 0 und 1. Man kann den Begriff der Unabhängigkeit zweier Ereignisse auch erweitern auf die Situation einer Folge von Ereignissen. Neben der paarweisen Unabhängigkeit definiert man auch den Begriff der gegenseitigen Unabhängigkeit. 72 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. Definition. — Ist (An ) eine endliche oder unendliche Folge von Ereignissen, so sagt man, dass die Ereignisse A1 , A2 , . . . gegenseitig unabhängig oder als Gesamtheit unabhängig sind, wenn folgende Bedingung P(Ai1 Ai2 . . . Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ) für jede endliche Folge Ai1 , Ai2 , . . . , Aik von verschiedenen Ereignissen gilt. Man beachte, wenn die Folge (An ) endlich ist und aus m (m ≥ 2) verschiedenen Ereignissen besteht, so ist die Zahl der Bedingungen gleich m m m + +···+ = 2m − m − 1. 2 3 m Bemerkung 1. — Das folgende Beispiel zeigt, dass m Ereignisse paarweise unabhängig sein können, ohne gegenseitig unabhängig zu sein. Man wirft zwei Würfel und bezeichnet mit A das Ereignis der erste Würfel zeigt eine gerade Zahl , mit B das Ereignis der zweite Würfel zeigt eine ungerade Zahl , und mit C das Ereignis beide Würfel zeigen Zahlen gleicher Parität . Es ist P(A) = P(B) = P(C) = 1/2, ferner P(AB) = P(BC) = P(CA) = 1/4, aber P(ABC) = 0 = P(A)P(B)P(C). Dieses Beispiel zeigt deutlich, dass ein Ereignis A jeweils von Ereignissen B und C unabhängig sein kann, ohne jedoch vom Durchschnitt B ∩ C unabhängig zu sein. Bemerkung 2. — Wir betrachten nun ein Beispiel aus der Arithmetik, um den Unterschied zwischen gegenseitiger Unabhängigkeit und paarweiser Unabhängigkeit zu verdeutlichen. Eine Urne enthalte N Kugeln, die von 1 bis N durchnummeriert seien. Ein Experiment bestehe darin, eine Kugel zufällig zu ziehen und deren Nummer zu notieren. Als Wahrscheinlichkeitsraum haben wir das Tripel (Ω, P(Ω), P), wobei Ω = {1, . . . , N } und P die Gleichverteilung auf Ω ist. 1) Für jeden Teiler a von N bezeichne Ea das Ereignis die gezogene Kugel hat eine durch a teilbare Nummer ; klarerweise gilt P(Ea ) = 1/a. 2) Es seien nun a und b zwei Teiler von N ; mit [a, b] wird ihr kleinstes gemeinsames Vielfaches bezeichnet. Auch der ist ein Teiler von N und aus der Beziehung Ea ∩ Eb = E[a,b] folgt P(Ea ∩ Eb ) = 1/[a, b]. Man folgert daraus, dass die beiden Eigenschaften a) [a, b] = ab, d.h. a und b sind relativ prim; b) P(Ea ∩ Eb ) = P(Ea )P(Eb ), d.h. Ea und Eb sind unabhängig; äquivalent sind. 3) Es sei nun n eine ganze Zahl ≥ 2 und a1 , . . . , an seien die Teiler von N ; mit [a1 , . . . , an ] wird deren kleinstes gemeinsames Vielfaches bezeichnet; auch dieses ist ein Teiler von N . Aus Ea1 ∩ · · · ∩ Ean = E[a1 ,...,an ] folgt P(Ea1 ∩ · · · ∩ Ean ) = 1/[a1 , . . . , an ] und man erhält daraus, dass die beiden folgenden Aussagen äquivalent sind: 5. UNABHÄNGIGKEIT VON FAMILIEN VON EREIGNISSEN 73 a) [a1 , . . . , an ] = a1 · · · an ; b) P(Ea1 ∩ · · · ∩ Ean ) = P(Ea1 ) . . . P(Ean ). Nun weiss man aber, dass die Eigenschaft a) genau dann gilt, wenn die Zahlen paarweise teilerfremd zueinander sind. Für jede Teilmenge J ⊂ {1, . . . , n} ist deshalb P( j∈J Eaj ) = j∈J P (aj ). Die Eigenschaft b) ist also in der Tat äquivalent zu der Unabhängigkeit der Ereignisse Ea1 , . . . , Ean als Gesamtheit. 4) Betrachten wir nun die Zahl N = 12, sowie mit n = 3 die Teiler a1 = 2, a2 = 3, a3 = 4. Man sieht, dass E2 und E3 unabhängig sind, ebenso E3 und E4 , hingegen sind E2 und E4 nicht unabhängig. Die Unabhängigkeit ist also als Relation nicht transitiv. 5. Unabhängigkeit von Familien von Ereignissen. — Der Begriff der Unabhängigkeit lässt sich folgendermassen auf Familien von Ereignissen übertragen. Es sei eine endliche oder unendliche Folge (Cn ) von Familien von Ereignissen gegeben. Definition. — Man sagt, dass C1 und C2 unabhängig sind, wenn für beliebige A1 ∈ C1 und A2 ∈ C2 , die Ereignisse A1 und A2 unabhängig sind. Analog bezeichnet man die Folge (Cn ) als eine Folge von Familien gegenseitig unabhängiger oder als Gesamtheit unabhängiger Ereignisse, wenn für jede Teilfolge Ci1 , . . . , Cik der Folge (Cn ) und jede Folge Ai1 ∈ Ci1 , . . . , Aik ∈ Cik von Ereignissen gilt P(Ai1 . . . Aik ) = P(Ai1 ) . . . P(Aik ). Der folgende Satz zeigt, dass es für den Nachweis der Unabhängigkeit zweier Familien genügt, die definierende Eigenschaft für hinreichend stabile Teilfamilien zu zeigen. Dabei spielt der Begriff eines Dynkin-Systems eine wesentliche Rolle. Satz 5.1. — Es seien C1 und C2 zwei Familien von Ereignissen. Es wird vorausgesetzt, dass sie unabhängig sind, sowie abgeschlossen unter endlichen Durchschnitten. Dann sind auch die von C1 und C2 erzeugten σ-Algebren σ(C1 ) und σ(C2 ) unabhängig. Beweis. — Es bezeichne E1 die Familie aller Ereignisse, die von jedem Ereignis der Familie C2 unabhängig sind. Weiter oben wurde festgehalten, dass die Familie DA aller Ereignisse, die von einem gegebenen Ereignis A unabhängig sind, ein Dynkin-System bildet. Nun ist E1 nichts anderes als der Durchschnitt DA (A ∈ C2 ), somit ist auch die Familie E1 ein DynkinSystem. Da dieses C1 enthält, enthält es auch das erzeugte Dynkin-System D(C1 ). Somit sind D(C1 ) und C2 zwei Familien von unabhängigen Ereignissen. Ganz analog zeigt man, dass die Familie E2 aller derjenigen Ereignisse, die von D(C1 ) unabhängig sind, wiederum ein Dynkin-System ist. Dieses 74 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. enthält C2 und somit auch D(C2 ). Folglich sind die Familien D(C1 ) und D(C2 ) unabhängig. Schliesslich sind die Familien C1 und C2 abgeschlossen unter endlichen Durchschnitten, damit sind aber die erzeugten Dynkin-Systeme identisch mit den jeweils erzeugten σ-Algebren. Somit sind σ(C1 ) = D(C1 ) und σ(C2 ) = D(C2 ) unabhängig. Da eine Algebra unter endlichen Durchschnitten abgeschlossen ist, kann man aus Satz 5.1 eine Folgerung ziehen, die wegen ihrer Bedeutung als eigener Satz formuliert werden soll. Satz 5.2. — Sind A1 und A2 zwei unabhängige Algebren von Ereignissen, so sind auch die von ihnen erzeugten σ-Algebren σ(A1 ) und σ(A2 ) unabhängig. 6. Unabhängige Zufallsvariable. — Wir sind dem Begriff der von einer Zufallsvariablen erzeugten σ-Algebra bereits begegnet. Ist X eine auf einem Wahrscheinlichkeitsraum (Ω, A, P) definierte n-dimensionale Zufallsvariable, so ist die von X erzeugte σ-Algebra σ(X) nichts anderes als die σ-Algebra X −1 (Bn ). Das Konzept der Unabhängigkeit lässt sich somit folgendermassen auf Zufallsvariable übertragen. Definition. — Zwei (reelle oder n-dimensionale) Zufallsvariable X und Y , die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind, heissen unabhängig, wenn die von ihnen erzeugten σ-Algebren σ(X) und σ(Y ) unabhängig sind. Etwas genauer beschrieben: sind X und Y n- bzw. m-dimensionale Zufallsvariable, die beide auf dem Wahrscheinlichkeitsraum (Ω, A, P) definiert sind, so sind sie unabhängig, wenn für jedes A ∈ Bn und jedes B ∈ Bm die Gleichheit P{X ∈ A, Y ∈ B} = P{X ∈ A}P{Y ∈ B} gilt. Ein Begriff, dem man in der Wahrscheinlichkeitstheorie immer wieder begegnet, ist der einer Folge von gegenseitig oder als Gesamtheit unabhängigen Zufallsvariablen. Dessen formale Definition lautet folgendermassen: Definition. — Ist (Xn ) eine auf einem Wahrscheinlichkeitsraum (Ω, A, P) definierte Folge von Zufallsvariablen, so bezeichnet man sie als eine Folge von unabhängigen Zufallsvariablen (und spricht auch von als Gesamtheit unabhängigen Zufallsvariablen, um jede Zweideutigkeit zu vermeiden), wenn die Folge der erzeugten σ-Algebren (σ(Xn)) eine als Gesamtheit unabhängige Folge ist. 6. UNABHÄNGIGE ZUFALLSVARIABLE 75 Eine praktisch brauchbare Version dieser Definition sieht so aus: (Xn ) ist eine Folge von unabhängigen Zufallsvariablen, wenn für jede endliche Teilfolge Xi1 , . . . , Xik und jede endliche Folge B1 , . . . , Bk von Borel-Mengen die Gleichheit P{Xi1 ∈ B1 , . . . , Xik ∈ Bk } = P{Xi1 ∈ B1 } . . . P{Xik ∈ Bk } gilt. Im folgenden Satz wird ausgesagt, dass man sich zum Nachweis der Unabhängigkeit von zwei reellen Zufallsvariablen X und Y auf die Untersuchung von Teilfamilien von Mengen, insbesondere auf Halbgeraden, beschränken kann. Die Wahrscheinlichkeiten P{X ∈ A} für A =] − ∞, x] sind dann gleich P{X ≤ x}, d.h. gleich F(x), wobei F die Verteilungsfunktion von X bezeichnet. Es genügt also, nachzuweisen, dass die gemeinsame Verteilungsfunktion des Paares gerade das Produkt der Verteilungsfunktionen von X und Y ist. Satz 6.1. — Es sei n ≥ 2 und X1 , . . . , Xn sei eine Folge von n reellen Zufallsvariablen, alle definiert auf dem Wahrscheinlichkeitsraum (Ω, A, P). Die Folge X1 , . . . , Xn ist genau dann (als Gesamtheit) unabhängig, wenn die Verteilungsfunktion des Vektors X = (X1 , . . . , Xn ) gleich dem Produkt der Verteilungsfunktionen F1 von X1 , . . . , Fn von Xn ist, d.h. wenn für jede Folge (x1 , . . . , xn ) aus Rn gilt: F(x1 , . . . , xn ) = F1 (x1 ) . . . Fn (xn ). Beweis. — Es sollte genügen, dies im Falle n = 2 zu beweisen. Sind also X1 und X2 unabhängig, so gilt P{X1 ∈ B1 , X2 ∈ B2 } = P{X1 ∈ B2 }P{X2 ∈ B2 } für jedes Paar B1 , B2 von Borel-Mengen. Nimmt man B1 =] − ∞, x1 ] und B2 =] − ∞, x2 ], so erhält man gerade (6.1) F(x1 , x2 ) = F1 (x1 )F2 (x2 ). Bezeichnet umgekehrt Ci die Familie der Ereignisse {Xi ≤ xi } (i = 1, 2), so ist jede dieser Familien abgeschlossen unter endlichen Durchschnitten. Gleichung (6.1) zeigt, dass C1 und C2 unabhängig sind. Das gilt dann auch für die erzeugten σ-Algebren, die aber nichts anderes sind als die σ-Algebren σ(X1 ) und σ(X2 ). Also sind die Zufallsvariablen X1 und X2 unabhängig. Der abschliessende Satz erweist sich besonders dann als nützlich, wenn man Transformationen von Zufallsvariablen betrachtet und sich davon überzeugen will, dass die transformierten Variablen immer noch unabhängig sind. 76 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. Satz 6.2. — Es sei n ≥ 2 und X1 , . . . , Xn sei eine Folge von n (als Gesamtheit) unabhängigen Zufallsvariablen, die m-dimensional und alle auf dem gleichen Wahrscheinlichkeitsraum (Ω, A, P) definiert sind. Weiter seien messbare Funktionen fi : (Rm , Bm ) → (Rp , Bp ) (i = 1, . . . , n) gegeben. Dann sind f1 ◦ X1 , . . . , fn ◦ Xn als Gesamtheit unabhängige p-dimensionale Zufallsvariable. Beweis. — Es ist nur nachzurechnen, dass P{f1 ◦ X1 ∈ B1 , . . . , fn ◦ Xn ∈ Bn } = P{X1 ∈ f1−1 (B1 ), . . . , Xn ∈ fn−1 (Bn )} = P{X1 ∈ f1−1 (B1 )} . . . P{Xn ∈ fn−1 (Bn )} = P{f1 ◦ X1 ∈ B1 } . . . P{fn ◦ Xn ∈ Bn }. ERGÄNZUNGEN UND ÜBUNGEN 1. — Es seien A, B zwei Ereignisse. Man zeige, dass aus der Unabhängigkeit von A und B auch die Unabhängigkeit der erzeugten σ-Algebren T(A) und T(B) folgt. 2. a) Es seien C1 und C2 zwei unabhängige Familien von Ereignissen. Dann sind auch die von ihnen erzeugten monotonen Klassen M(C1 ) und M(C2 ) unabhängig. b) Es seien A1 und A2 zwei unabhängige Algebren von Ereignissen. Dann sind auch die von ihnen erzeugten σ-Algebren unabhängig. 3. — Beim Werfen eines perfekten Würfels betrachte man die beiden Ereignisse: A : die erzielte Augenzahl ist durch 2 teilbar ; B : die erzielte Augenzahl ist durch 3 teilbar . Man zeige, dass die Ereignisse A und B unabhängig sind. 4. a) Es seien A und B zwei unabhängige Ereignisse und es gelte zudem noch, dass das Ereignis A das Ereignis B impliziert. Man zeige, dass dann P(B) = 1 oder P(A) = 0 gilt. b) Man zeige: ist A von sich selbst unabhängig, so gilt P(A) = 0 oder 1. c) Man zeige, dass ein Ereignis A mit P(A) = 0 oder 1 von jedem Ereignis unabhängig ist. ERGÄNZUNGEN UND ÜBUNGEN 77 d) (J.-P. Dion) Die Unabhängigkeit, als Relation betrachtet, ist nicht transitiv: es genügt, zwei unabhängige Ereignisse A, B mit 0 < P(A) < 1 zu betrachten. Dann ist A unabbhängig von B und B unabhängig von A, aber A ist nicht unabhängig von A selbst. 5. — Nehmen wir an, es sei A unabhängig von B ∩ C und von B ∪ C, weiterhin B unabhängig von C ∩ A und schliesslich C unabhängig von A ∩ B. Ausserdem seien die Wahrscheinlichkeiten P(A), P(B), P(C) positiv. Dann sind A, B, C gegenseitig unabhängig. 6. — Man zeige, dass folgende Situation auftreten kann: A ist unabhängig von B ∩ C und von B ∪ C, aber weder von B, noch von C. 7. — Es seien A, B, C derart, dass A und B unabhängig relativ zu C und C sind und A und C unabhängig voneinander sind. Man zeige, dass dann A und B unabhängig sind. Man zeige in gleicher Weise: ist (X, Y, Z) ein Tripel von Zufallsvariablen, wobei X und Y unabhängig relativ zu Z sind und X und Z unabhängig sind, dann sind auch X und Y unabhängig. c 8. — In den beiden folgenden Beispielen sollte man, bevor man sich an die Berechnung der gefragten bedingten Wahrscheinlichkeiten macht, ein Tripel konstruieren, welches das Experiment beschreibt. a) Ein Familienvater behauptet, zwei Kinder zu haben. Man berechne die Wahrscheinlichkeit, dass es sich um zwei Jungen handelt, wenn man zudem weiss α) mindestens eines der Kinder ist ein Junge; β) das ältere der Kinder ist ein Junge. b) Man wähle zufällig ein Kind aus einer Familie mit zwei Kindern. Aus der Kenntnis, dass das gewählte Kind ein Junge ist, ermittle man die Wahrscheinlichkeit, dass beide Kinder dieser Familie Jungen sind. 9. — Man finde eine notwendige und hinreichende Bedingung dafür, dass eine Zufallsvariable X von sich selbst unabhängig ist. 10. — Es seien X1 , X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Verteilung 12 (ε−1 + ε+1 ). Sind die drei Zufallsvariablen X1 , X2 , X3 = X1 X2 gegenseitig unabhängig? Sind sie paarweise unabhängig? 11. — Es sei (X1 , . . . , Xn ) eine Familie von n gegenseitig unabhängigen Zufallsvariablen, mit den jeweiligen Verteilungsfunktionen F1 , . . . , Fn . Man bestimme die Verteilungsfunktionen von Y = max(X1 , . . . , Xn ) und von Z = min(X1 , . . . , Xn ). 78 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. 12. — Es bezeichne Pr (k) (r ≥ 1) die Wahrscheinlichkeit, dass in eine Telefonzentrale k Anrufe innerhalb von r Minuten eintreffen. Man unterstelle, dass die Anzahlen der in zwei disjunkten Zeitintervallen eintreffenden Anrufe durch zwei voneinander unabhängige Zufallsvariable geregelt werden. a) Man berechne in Abhängigkeit von P1 (k) (k ≥ 0) die Wahrscheinlichkeit, dass in der Zentrale s Anrufe in zwei Minuten eintreffen. ak b) Für P1 (k) = e−a (a > 0; k ∈ N), berechne man Pr (k) für alle r ≥ 1. k! 13. Ziehungen mit und ohne Zurücklegen. — Eine Urne enthalte r + s Kugeln, von denen r weiss und s schwarz (r, s ≥ 1) seien. Man führt hintereinander n Ziehungen aus (n ≥ 1), wobei nach jeder Ziehung die gezogene Kugel in die Urne zurückgelegt wird (bzw. nicht zurückgelegt wird). Man bezeichne mit Ak (k = 1, . . . , n) das Ereignis man erhält bei der k-ten Ziehung eine weisse Kugel und betrachte die Zufallsvariablen Xk = IAk (k = 1, . . . , n) und Sn = X1 + · · · + Xn (die Anzahl der im Verlauf von n Ziehungen erhaltenen weissen Kugeln). Ziehung mit Zurücklegen; binomiales Modell. — Man wählt als Ω die Menge aller Elemente ω = Aε11 ∩ · · · ∩ Aεnn , wobei Aε = A, falls ε = 1 und Aε = Ac , falls ε = 0, und die Wahrscheinlichkeitsverteilung P auf Ω sei durch P({ω}) = P(Aε11 ) . . . P(Aεnn ), wobei P(A1 ) = · · · = P(An ) = p gegeben. Dann gilt: a) Die Zufallsvariablen X1 , . . . , Xn sind gegenseitig unabhängig, sie haben identische Verteilungen, und die Verteilung von Xk ist gegeben durch P{Xk = 1} = p, P{Xk = 0} = 1 − p, b) Die Verteilung von Sn ist gegeben durch n i p (1 − p)n−i P{Sn = i} = i k = 1, . . . , n. 0 ≤ i ≤ n. Die Variable Sn genügt also einer Binomialverteilung, daher der Name des Modells. Ziehung ohne Zurücklegen; hypergeometrisches Modell. — In diesem Fall erschöpft sich das Verfahren, denn die Urne ist nach r + s Ziehungen leer. Es genügt also, die Situation für 1 ≤ n ≤ r + s zu betrachten. Betrachten wir das (r + s)-Tupel (X1 , . . . , Xr+s ). Dazu nehmen wir als Grundmenge Ω die εr+s , wobei (ε1 , . . . , εr+s ) eine Folge Menge aller Elemente ω = Aε11 ∩ · · · ∩ Ar+s ist, die genau r-mal das Symbol 1 und s-mal das Symbol 0 enthält. Da die 79 ERGÄNZUNGEN UND ÜBUNGEN weissen Kugeln untereinander ununterscheidbar sind (ebenso die schwarzen), r+s gilt card Ω = r . Also nehmen wir für P die Gleichverteilung auf Ω. Dann gelten die folgenden Aussagen. a) Die Zufallsvariablen X1 , . . . , Xr+s sind nicht gegenseitig unabhängig (so gilt beispielsweise X1 + · · · + Xr+s = r), aber sie sind identisch verteilt, wobei die Verteilung von Xk durch P{Xk = 1} = r = p, r+s P{Xk = 0} = 1 − p, k = 1, . . . , r + s gegeben ist. b) Es sei 1 ≤ n ≤ r + s. Die Verteilung von Sn = X1 + · · · + Xn ist gegeben durch r s i n−i r+s falls max(0, n − s) ≤ i ≤ min(n, r); P{Sn = i} = n 0, sonst. Die Zufallsvariable Sn genügt also der hypergeometrischen Verteilung, daher auch der Name des Modells. 14. — Nochmals zu Aufgabe 13, mit den dort verwendeten Bezeichnungen. Man berechne P{Xk = 1 | Sn = i}, zunächst für den Fall der Ziehungen mit Zurücklegen, dann für Ziehungen ohne Zurücklegen. 15. Verallgemeinerung der Aufgabe 13 (multinomiales Modell). — Eine Urne enthalte nun r1 Kugeln der Farbe C1 , . . . , rk Kugeln der Farbe Ck , wobei die Farben C1 , . . . , Ck verschieden seien. Man macht das gleiche Experiment wie in Aufgabe 13 (n Ziehungen, jeweils mit Zurücklegen). Es sei r1 + · · · + rk = m und pi = ri /m (1 ≤ i ≤ k). Mit Aij wird das Ereignis bei der j-ten Ziehung wird eine Kugel der Farbe Ci gezogen (1 ≤ i ≤ k, 1 ≤ j ≤ n) bezeichnet. Schliesslich betrachte man die Zufallsvariablen Xij = IAij (1 ≤ i ≤ k, 1 ≤ j ≤ n) ; Xi = n Xij (1 ≤ i ≤ k). j=1 Die Zufallsvariable Xi gibt die Anzahl der Kugel von der Farbe Ci an, die im Verlauf der n Ziehungen gezogen werden Man zeige, dass man also ein Tripel (Ω, P(Ω), P) mit folgenden Eigenschaften konstruieren kann: a) Die Zufallsvariablen Xi1 ,1 , . . . , Xin ,n sind gegenseitig unabhängig für jede Folge (i1 , . . . , in ) ∈ {1, . . . , k}n . Ausserdem gilt P{Xij = 1} = pi (1 ≤ i ≤ k, 1 ≤ j ≤ n). 80 KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN. b) Die Verteilung des k-dimensionalen Zufallsvektors X = (X1 , . . . , Xk ) ist durch n P{X1 = n1 , . . . , Xk = nk } = pn1 . . . pnk k n 1 , . . . , nk 1 gegeben. Das ist der Fall einer Multinomialverteilung. 16. — Drei Personen A, B, C werden zufällig auf einer Geraden aufgestellt. Man betrachte die beiden Ereignisse: E : B befindet sich rechts von A ; F : C befindet sich rechts von A . Sind diese beiden Ereignisse E und F unabhängig, wenn man auf der Grundmenge die Gleichverteilung annimmt? 17. — Es sei Ω die Menge der acht verschiedenen möglichen Beobachtungen, die man machen kann, wenn eine Münze dreimal hintereinander geworfen wird. Man betrachte die beiden Ereignisse: A : beim ersten Wurf tritt “Zahl” auf ; B : “Zahl” tritt mindestens zweimal auf . a) Sind die Ereignisse A und B unabhängig, falls man auf Ω die Gleichverteilung annimmt? b) Gibt es eine Wahrscheinlichkeitsverteilung P auf Ω derart, dass A und B unabhängig bezüglich P sind? 18. (E. Kosmanek). — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum, A, B seien zwei Ereignisse aus A. Dann gilt |P(A ∩ B) − P(A)P(B)| ≤ 14 . Man kann diese Ungleichung auf verschiedene Arten beweisen, die sich auf die Schwarzsche Ungleichung zurückführen lassen. Einen direkten Beweis kann man geben, indem man die Atome A∩B, A∩B c , Ac ∩B und Ac ∩B c betrachtet. Bezeichnen α, β, γ und δ ihre jeweiligen Wahrscheinlichkeiten, so gilt α + β + γ + δ = 1. Für e(A, B) = P(A ∩ B) − P(A)P(B) gilt dann e(A, B) = α − (α + β)(α + γ) = α(1 − α − β − γ) − βγ = αδ − βγ, und somit e(A, B) ≤ αδ ≤ 14 (weil α, δ ≥ 0, α + δ ≤ 1) sowie e(A, B) ≥ −βγ ≥ − 14 (weil β, γ ≥ 0, β + γ ≤ 1). Man beobachtet, dass die Gleichheit αδ − βγ = 0 eine notwendige und hinreichende Bedingung dafür ist, dass die Ereignisse A und B unabhängig sind. 19. — Man verfügt über einen perfekten Würfel. Man denke sich ein Experiment aus, das aus zwölf disjunkten und gleichwahrscheinlichen Ereignissen besteht. http://www.springer.com/978-3-7643-6169-3