Probeseiten 6 PDF

Werbung
KAPITEL
6
BEDINGTE WAHRSCHEINLICHKEITEN.
UNABHÄNGIGKEIT
In diesem Kapitel geht es zunächst um das Studium der bedingten Wahrscheinlichkeitsverteilungen, relativ zu einem Ereignis A. Diese elementare Situation wird in allen einführenden Werken zur Wahrscheinlichkeitsrechnung
untersucht. Weiter wird in diesem Kapitel der Begriff der Unabhängigkeit
behandelt, und zwar nicht nur für Ereignisse, sondern auch für Familien von
Ereignissen. Dabei wird auch der wichtige Begriff einer Folge von paarweise
unabhängigen Zufallsvariablen eingeführt.
1. Bedingte Wahrscheinlichkeiten. — Nehmen wir einmal an, die
Seiten mit gerader Augenzahl eines sechsseitigen Würfels seien weiss gefärbt,
die mit ungerader Augenzahl hingegen schwarz. Nun wird der Würfel geworfen; von weitem kann man erkennen, dass eine weisse Seite oben liegt; wie
gross ist dann die Wahrscheinlichkeit, dass man eine sechs erzielt hat?
Jeder wird auf diese Frage mit “1/3” und nicht mit “1/6” antworten. In
der Tat wird durch die Beobachtung des Auftretens einer weissen Seite die
Gewichtung der Ereignisse verändert. Man kann sich nicht mehr auf die
Gleichverteilung P auf der Menge Ω = {1, 2, . . . , 6} beziehen, sondern man
wird jeder der Zahlen 2, 4, 6 das Gewicht 1/3 geben, dagegen jeder der
Zahlen 1, 3, 5 das Gewicht 0. Um die neue Information A es ist eine gerade
Zahl aufgetreten , zu berücksichtigen, wird man also eine neue Gewichtung
einführen, die mit P{ . | A} bezeichnet wird. Sie wird definiert durch
P{{i} | A} =
1/3, falls i = 2, 4, 6;
0,
sonst.
Wegen P(A) = 1/2 gilt also
P{{i} | A} =
P({i} ∩ A)
,
P(A)
für alle i = 1, 2, . . . , 6. Dieses Spielbeispiel motiviert die nachfolgende Definition einer bedingten Wahrscheinlichkeit.
66
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
Für dieses ganze Kapitel sei nun ein Wahrscheinlichkeitsraum (Ω, A, P)
vorgegeben, und die Buchstaben A, B, C, . . . (mit oder ohne Indices) bezeichnen Ereignisse (d.h. Elemente der σ-Algebra A).
Theorem und Definition 1.1. — Es sei A ein Ereignis mit der
Wahrscheinlichkeit P(A) > 0. Dann ist die durch
(1.1)
P(B | A) =
P(B ∩ A)
,
P(A)
definierte Abbildung P( . | A), die für alle B aus A definiert ist, eine Wahrscheinlichkeitsverteilung auf (Ω, A).
Man bezeichnet sie als die bedingte Wahrscheinlichkeitsverteilung relativ
zu A, oder kurz: die A-bedingte Wahrscheinlichkeitsverteilung.
P(Ω ∩ A)
= 1. Ist andererseits
Beweis. — Zunächst einmal gilt P(Ω | A) =
P(A)
(Bn ) eine Folge von paarweise disjunkten Ereignissen, so gilt dies auch für
die Folge (A ∩ Bn ). Daher hat man
P( n A ∩ Bn )
P(A ∩ n Bn )
=
P( Bn | A) =
P(A)
P(A)
n
P(A ∩ Bn ) P(A ∩ Bn ) = n
=
=
P(Bn | A),
P(A)
P(A)
n
n
und somit ist P(· | A) tatsächlich eine Wahrscheinlichkeitsverteilung.
Zu beachten ist, dass die bedingte Wahrscheinlichkeit relativ zu A von A
getragen wird; anders gesagt, es gelten die Beziehungen
A ∩ B = ∅ ⇒ P(B | A) = 0 und
B ⊃ A ⇒ P(B | A) = 1.
Satz 1.2 (Formel für doppelte Bedingungen). — Es seien A1 und A2
Ereignisse derart, dass die Wahrscheinlichkeit P(A1 A2 ) strikt positiv ist.
Dann gilt für jedes Ereignis A3
P(A1 A2 A3 ) = P(A3 | A1 A2 )P(A2 | A1 )P(A1 ).
Beweis. — Diese Identität folgt unmittelbar aus der Definition der
bedingten Wahrscheinlichkeiten. Tatsächlich ist ja P(A1 ) > 0, da A1 A2 eine
strikt positive Wahrscheinlichkeit hat. Daher kann man schreiben:
P(A1 A2 A3 ) = P(A3 | A1 A2 )P(A1 A2 ) = P(A3 | A1 A2 )P(A2 | A1 )P(A1 ).
Die obige Formel lässt sich unmittelbar auf den Fall von mehr als zwei
Ereignissen übertragen. Ist n ≥ 2 und ist A1 , A2 , . . . , An eine Folge von n
Ereignissen, wobei P(A1 A2 . . . An−1 ) > 0 ist, so gilt die Gleichung
(1.2) P(A1 A2 . . . An )
= P(An | A1 . . . An−1 )P(An−1 | A1 . . . An−2 ) · · · P(A2 | A1 )P(A1 ).
2. VOLLSTÄNDIGE SYSTEME VON EREIGNISSEN
67
2. Vollständige Systeme von Ereignissen. — Man bezeichnet eine
Folge (An ) von Ereignissen als vollständiges System, wenn gilt:
(i) i =j ⇒ Ai ∩ A
j = ∅ (die Ereignisse An sind paarweise unverträglich);
(ii) P( n An ) = n P(An ) = 1 (fast sicher tritt eines der Ereignisse An
ein).
Speziell ist also jede aus Elementen von A bestehende abzählbare Partition
von Ω ein vollständiges System. In dieser Definition wird nurverlangt, dass
die Wahrscheinlichkeit des komplementären Ereignisses zu n An zu Null
wird — es muss deswegen aber nicht unmöglich sein.
Theorem 2.1 (Formel von Bayes). — Es sei (An ) ein vollständiges
System von Ereignissen, die alle eine positive Wahrscheinlichkeit haben.
Dann gilt für jedes Ereignis B
P(B | An )P(An ).
P(B) =
n
Gilt ausserdem noch P(B) > 0, so hat man für jedes k die Gleichheit
P(B | Ak )P(Ak )
.
P(Ak | B) = n P(B | An )P(An )
Beweis. — Setzt manΩ =
n An , so gelten für jedes Ereignis B
die Beziehungen BΩ = n BAn undP(BΩc ) = 0.Daher ist P(B) =
P(BΩ ) + P(BΩc ) = P( n BAn ) =
n P(BAn ) =
n P(B | An )P(An ).
Schliesslich kann man
P(Ak | B) =
P(B | Ak )P(Ak )
P(BAk )
=
P(B)
n P(B | An )P(An )
schreiben, falls P(B) > 0 ist.
Beispiel (das Problem der Falschspielers). — Ein Spieler spielt Kopf
oder Zahl , wettet auf Zahl und erhält Zahl . Wie gross ist die
Wahrscheinlichkeit, dass er ein Falschspieler ist? Kann man diese Frage
überhaupt beantworten?
Es bezeichne Ω die Menge aller Stichproben und es seien z, k, e, f
jeweils die Ereignisse man erhält Zahl , man erhält Kopf , der Spieler
ist ehrlich , der Spieler spielt falsch . Um die Menge {z, k, e, f } mit einer
Wahrscheinlichkeit zu bewerten, kann man zunächst davon ausgehen, dass
P(z | e) = P(k | e) = 1/2 gilt. Ebenso kann man vereinbaren, dass P(z | f )
gleich 1 ist (der Falschspieler kann Zahl erzielen, falls er will). Somit wäre
also P(k | f ) = 0. Schliesslich setzt man P(f ) = x (0 ≤ x ≤ 1) an. Aus der
Formel von Bayes folgt dann
P(f | z) =
x
2x
P(z | f )P(f )
=
=
.
P(z | f )P(f ) + P(z | l)P(l)
x + (1/2)(1 − x)
x+1
68
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
Man kann also eine numerische Antwort auf die gestellte Frage nur dann
geben, wenn man den Anteil x der Falschspieler in der Bevölkerung kennt.
Man erhält also eine mehr oder weniger tröstliche Auskunft, je nachdem, wie
man die Ehrlichkeit seiner Mitmenschen einschätzt!
Beispiel. — Ein Individuum wird zufällig aus einer Population von
Menschen ausgewählt, von der man weiss, dass 10−4 der Personen an Aids
leiden. Man führt einen Aids-Test aus. Wenn dieser Test ein positives
Resultat zeigt, wie gross ist dann die Wahrscheinlichkeit, dass das Individuum
tatsächlich an Aids erkrankt ist?
Wir betrachten die Ereignisse A1 : das Individuum ist an Aids erkrankt ,
und A2 : das Individuum ist nicht an Aids erkrankt , sowie B : der
Aids-Test liefert ein positives Resultat . Aus den Daten des Problems
liefern uns P(A1 ) = 10−4 , und somit P(A2 ) = 0, 9999. Nun muss man
noch P(B | A1 ) und P(B | A2 ) kennen, d.h. die Wahrscheinlichkeit dafür, ein
positives Testergebnis zu erhalten, je nachdem, ob das Individuum an Aids
erkrankt ist oder nicht. Diese Wahrscheinlichkeiten kann man durch vorher
durchgeführte Experimente bestimmen. Nehmen wir beispielsweise an, dass
P(B | A1 ) = 0, 99 und P(B | A2 ) = 0, 001 (die Tests sind nicht fehlerfrei).
Damit findet man also
P(A1 | B) =
10−4 × 0, 99
≈ 0, 09.
10−4 × 0, 99 + 0, 9999 × 0, 001
Man wird überrascht sein, wie klein diese Wahrscheinlichkeit ist! Dies liegt
an der grossen Zahl diagnostischer Fehler, die von dem riesigen Anteil nicht
erkrankter Personen herrühren; es ist ja P(A2 ) >> P(A1 ). Man sieht: das
Aufdecken von Krankheiten ist teuer!
3. Systeme von bedingten Wahrscheinlichkeiten. — Es gibt viele
Situationen, bei denen experimentelle Beobachtungen zu einem System von
bedingten Wahrscheinlichkeiten führen, die auf (Mengen von) Folgen von
Stichproben definiert sind. Man ist dann daran interessiert, daraus eine
Wahrscheinlichkeitsverteilung auf dem Raum aller Folgen herzuleiten. Hier
wird zunächst ein solches Resultat für endliche Folgen behandelt. In den Aufgaben 1–9 von Kapitel 10 wird dieses Resultat auf die Situation unendlicher
Folgen erweitert.
Wir geben uns eine ganze Zahl n ≥ 2 und eine endliche oder abzählbare
Menge S vor. Wir betrachten nun als Basismenge Ω = S n und für jedes i =
1, 2, . . . , n definieren wir die Projektion Xi : Ω → S als diejenige Abbildung,
die jedem Element ω = (x1 , x2 , . . . , xn ) von Ω seine i-te Koordinate xi
zuordnet, also
Xi (ω) = xi .
3. SYSTEME VON BEDINGTEN WAHRSCHEINLICHKEITEN
69
In vielen Fällen wird (x1 , x2 , . . . , xn ) eine Folge von Werten sein, die ein zufallsgesteuertes System im Laufe der Zeit (hier diskret betrachtet) annimmt.
Die Zufallsvariable Xi gibt dann Auskunft über den Zustand des Systems
zum Zeitpunkt i.
Für das folgende Theorem denken wir uns eine Wahrscheinlichkeitsverteilung p1 auf S gegeben, sowie eine Folge q2 , . . . , qn von Funktionen mit
nichtnegativen reellen Werten, die jeweils auf S 2 , . . . , S n definiert sind, wobei
für jedes i = 2, . . . , n und jede Folge (x1 , . . . , xi−1 ) von S i−1 die Gleichheit
qi (x1 , . . . , xi−1 , x) = 1.
(3.1)
x∈S
gelten soll.
Theorem 3.1. — Sind eine Wahrscheinlichkeitsverteilung p1 auf S
und eine Familie von Funktionen (qi ) gegeben, die den Bedingungen (3.1)
genügen, so gibt es genau ein Wahrscheinlichkeitsmass P auf (Ω, P(Ω)), das
folgende Eigenschaften hat:
(i) P{X1 = x1 } = p1 (x1 ) für alle x1 ∈ S;
(ii) P{Xi+1 = xi+1 | X1 = x1 , . . . , Xi = xi } = qi+1 (x1 , . . . , xi , xi+1 ) für
alle i = 1, . . . , n − 1 und jedes (x1 , . . . , xi , xi+1 ) ∈ S i+1 , für das mit
P{X1 = x1 , . . . , Xi = xi } > 0 gilt. Es gilt also für jedes (x1 , . . . , xn ) ∈ S n
(3.2)
P{X1 = x1 , . . . , Xn = xn } = qn (x1 , . . . , xn ) · · · q2 (x1 , x2 )p1 (x1 ).
Beweis. — Wir zeigen zunächst, dass eine solche Wahrscheinlichkeitsverteilung P, wenn sie denn existiert, den Bedingungen (3.2) genügen muss.
Sei nämlich ω = (x1 , . . . , xn ) ein Element von Ω. Falls p1 (x1 ) = 0 ist, so
gilt P{X1 = x1 } = 0, was P{X1 = x1 , . . . , Xn = xn } = 0 nach sich zieht
und der Forderung (3.2) genügt. Ist allerdings p1 (x1 ) > 0, so bezeichnen
wir mit xn+1 ein festes Element von S und setzen, der Bequemlichkeit
halber, qn+1 (x1 , . . . , xn , xn+1 ) = 0. Nun kann man den kleinsten Index i + 1
mit 2 ≤ i + 1 ≤ n + 1 und qi+1 (x1 , . . . , xi+1 ) = 0 definieren. Dann gilt
nacheinander
P{X1 = x1 , X2 = x2 } = P{X2 = x2 | X1 = x1 }P{X1 = x1 }
= q2 (x1 , x2 )p1 (x1 ) > 0,
··· = ···
P{X1 = x1 , . . . , Xi = xi } = P{Xi = xi | X1 = x1 , . . . , Xi−1 = xi−1 }
× P{X1 = x1 , . . . , Xi−1 = xi−1 }
= qi (x1 , . . . , xi )
× P{X1 = x1 , . . . , Xi−1 = xi−1 } > 0.
70
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
Folglich ist
(3.3) P{X1 = x1 , . . . , Xi = xi } = qi (x1 , . . . , xi ) · · · q2 (x1 , x2 )p1 (x1 ).
Ist i + 1 = n + 1, so ist (3.2) gezeigt. Im Falle i + 1 ≤ n erhält man
P{X1 = x1 , . . . , Xi+1 = xi+1 }
= P{Xi+1 = xi+1 | X1 = x1 , . . . , Xi = xi }P{X1 = x1 , . . . , Xi = xi }
= qi+1 (x1 , . . . , xi+1 )P{X1 = x1 , . . . , Xi = xi } = 0
und somit
P{X1 = x1 , . . . , Xn = xn } = 0.
Wiederum ist (3.2) nachgewiesen.
Nun werden wir noch zeigen, dass durch die Relation (3.2) tatsächlich
eine Wahrscheinlichkeitsverteilung auf (Ω, P(Ω)) definiert wird und diese
den Bedingungen (i) und (ii) genügt. Wir stellen erst einmal fest, dass das
Ereignis {X1 = x1 , . . . , Xn = xn } nichts anderes ist, als die einelementige
Teilmenge {(x1 , . . . , xn )} von Ω, die mittels der Formel (3.2) ein Gewicht
erhält. Sei nun i fest gewählt mit 1 ≤ i ≤ n. Indem man nun die beiden
Seiten der Formel (3.2) nacheinander bezüglich xn , . . . , xi+1 summiert und
die Eigenschaft (3.1) ausnützt, erhält man die Formel (3.3). Damit ist speziell
die Eigenschaft (i) nachgewiesen. Im Falle P{X1 = x1 , . . . , Xi = xi } > 0
impliziert die Formel (3.3) unmittelbar die Eigenschaft (ii) auf Grund der
Definition der bedingten Wahrscheinlichkeit.
4. Unabhängige Ereignisse. — Es seien A und B zwei Ereignisse mit
positiver Wahrscheinlichkeit. Im allgemeinen wird P(A | B) = P(AB)/P(B)
verschieden von P(A) sein. Falls P(A | B) = P(A) ist, so sagt man, A sei
unabhängig von B.
Man stellt sofort fest, dass, wenn A unabhängig von B ist, umgekehrt auch
B unabhängig von A ist. Man wird deshalb gerne eine Formulierung wählen,
in der diese Symmetrie zum Ausdruck kommt, also etwa durch die Aussage
“A und B sind gegenseitig unabhängig”. Die allgemeine Definition lautet:
Definition. — Zwei Ereignisse A und B heissen unabhängig (bezüglich
einer Wahrscheinlichkeitsverteilung P), wenn
P(AB) = P(A) P(B)
gilt.
Satz 4.1. — Es seien A, B, C (mit oder ohne Indices) Ereignisse.
(i) Wenn A und B unabhängig sind, so sind auch A und B c unabhängig.
(ii) Wenn A und B sowie A und C unabhängig sind und ausserdem C ⊃ B
gilt, so sind auch A und C \ B unabhängig.
4. UNABHÄNGIGE EREIGNISSE
71
(iii) Jedes Ereignis ist unabhängig von jedem Ereignis, das die Wahrscheinlichkeit 0 hat und ebenso unabhängig von jedem Ereignis, das die Wahrscheinlichkeit 1 hat.
(iv) Ist (An ) eine Folge von paarweise disjunkten Ereignissen und ist A
unabhängig von An fürjedes n, so ist A auch unabhängig von der
disjunkten Vereinigung n An .
Beweis. — Zum Beweis von (i), schreibt man einfach P(AB c ) = P(A \
AB) = P(A) − P(AB) = P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P(B c ).
Eigenschaft (ii) ergibt sich aus P(A(C \ B)) = P(AC \ AB) = P(AC) −
P(AB) = P(A)P(C) − P(A)P(B) = P(A)(P(C) − P(B)) = P(A)P(C \ B).
Um schliesslich (iii) zu zeigen, seien B und C Ereignisse mit P(B) = 0
und P(C) = 1. Für jedes Ereignis A folgt aus der Inklusion AB ⊂ B
die Gleichung 0 ≤ P(AB) ≤ P(B) = 0, und daher 0 = P(AB) =
P(A)P(B). Um zu zeigen, dass A unabhängig von C ist, bemerkt man
zunächst, dass A und C c unabhängig sind, da C c die Wahrscheinlichkeit
0 hat. Damit sind wegen Aussage (ii) aber auch A und C unabhängig. Der
Nachweis der Eigenschaft (iv) macht nur Gebrauch
von der σ-Additivität
von Wahrscheinlichkeiten.
Tatsächlich gilt
P(A n An ) = P( n AAn ) =
n P(AAn ) =
n P(A)P(An ) = P(A)P( n An ).
Bemerkung. — Es bezeichne jetzt DA die Klasse aller derjenigen Ereignisse, die von einem vorgegebenen Ereignis A unabhängig sind. Die gerade
nachgewiesenen Eigenschaften kann man also auch dadurch ausdrücken, dass
man sagt: DA ist eine Familie von Ereignissen, die Ω enthält und die unter
Komplementierung, unter echter Differenz und unter abzählbaren disjunkten
Vereinigungen abgeschlossen ist. Anders gesagt, DA ist ein Dynkin-System
(cf. Kap. 2, § 3). Im allgemeinen ist DA allerdings nicht unter der Bildung von
Durchschnitten abgeschlossen, ist also i.a. keine Algebra. (cf. nachfolgende
Bemerkung 1.)
Weitere Bemerkungen
(i) In Satz 4.1 ist die erste Eigenschaft eine Folgerung aus der zweiten
und dritten Eigenschaft (man wähle C = Ω).
(ii) Zwei unverträgliche Ereignisse können nicht unabhängig sein, es sei
denn, dass mindestens eines von ihnen die Wahrscheinlichkeit 0 hat.
(iii) Die einzigen Ereignisse, die von sich selbst unabhängig sind, sind die
Ereignisse mit den Wahrscheinlichkeiten 0 und 1.
Man kann den Begriff der Unabhängigkeit zweier Ereignisse auch erweitern auf die Situation einer Folge von Ereignissen. Neben der paarweisen Unabhängigkeit definiert man auch den Begriff der gegenseitigen Unabhängigkeit.
72
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
Definition. — Ist (An ) eine endliche oder unendliche Folge von Ereignissen, so sagt man, dass die Ereignisse A1 , A2 , . . . gegenseitig unabhängig oder
als Gesamtheit unabhängig sind, wenn folgende Bedingung
P(Ai1 Ai2 . . . Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik )
für jede endliche Folge Ai1 , Ai2 , . . . , Aik von verschiedenen Ereignissen gilt.
Man beachte, wenn die Folge (An ) endlich ist und aus m (m ≥ 2)
verschiedenen Ereignissen besteht, so ist die Zahl der Bedingungen gleich
m
m
m
+
+···+
= 2m − m − 1.
2
3
m
Bemerkung 1. — Das folgende Beispiel zeigt, dass m Ereignisse paarweise
unabhängig sein können, ohne gegenseitig unabhängig zu sein. Man wirft zwei
Würfel und bezeichnet mit A das Ereignis der erste Würfel zeigt eine gerade
Zahl , mit B das Ereignis der zweite Würfel zeigt eine ungerade Zahl , und
mit C das Ereignis beide Würfel zeigen Zahlen gleicher Parität .
Es ist P(A) = P(B) = P(C) = 1/2, ferner P(AB) = P(BC) = P(CA) =
1/4, aber P(ABC) = 0 = P(A)P(B)P(C). Dieses Beispiel zeigt deutlich, dass
ein Ereignis A jeweils von Ereignissen B und C unabhängig sein kann, ohne
jedoch vom Durchschnitt B ∩ C unabhängig zu sein.
Bemerkung 2. — Wir betrachten nun ein Beispiel aus der Arithmetik, um
den Unterschied zwischen gegenseitiger Unabhängigkeit und paarweiser Unabhängigkeit zu verdeutlichen. Eine Urne enthalte N Kugeln, die von 1 bis N
durchnummeriert seien. Ein Experiment bestehe darin, eine Kugel zufällig zu
ziehen und deren Nummer zu notieren. Als Wahrscheinlichkeitsraum haben
wir das Tripel (Ω, P(Ω), P), wobei Ω = {1, . . . , N } und P die Gleichverteilung
auf Ω ist.
1) Für jeden Teiler a von N bezeichne Ea das Ereignis die gezogene
Kugel hat eine durch a teilbare Nummer ; klarerweise gilt P(Ea ) = 1/a.
2) Es seien nun a und b zwei Teiler von N ; mit [a, b] wird ihr kleinstes
gemeinsames Vielfaches bezeichnet. Auch der ist ein Teiler von N und aus
der Beziehung Ea ∩ Eb = E[a,b] folgt P(Ea ∩ Eb ) = 1/[a, b].
Man folgert daraus, dass die beiden Eigenschaften
a) [a, b] = ab, d.h. a und b sind relativ prim;
b) P(Ea ∩ Eb ) = P(Ea )P(Eb ), d.h. Ea und Eb sind unabhängig;
äquivalent sind.
3) Es sei nun n eine ganze Zahl ≥ 2 und a1 , . . . , an seien die Teiler
von N ; mit [a1 , . . . , an ] wird deren kleinstes gemeinsames Vielfaches bezeichnet; auch dieses ist ein Teiler von N . Aus Ea1 ∩ · · · ∩ Ean = E[a1 ,...,an ] folgt
P(Ea1 ∩ · · · ∩ Ean ) = 1/[a1 , . . . , an ] und man erhält daraus, dass die beiden
folgenden Aussagen äquivalent sind:
5. UNABHÄNGIGKEIT VON FAMILIEN VON EREIGNISSEN
73
a) [a1 , . . . , an ] = a1 · · · an ;
b) P(Ea1 ∩ · · · ∩ Ean ) = P(Ea1 ) . . . P(Ean ).
Nun weiss man aber, dass die Eigenschaft a) genau dann gilt, wenn die Zahlen
paarweise teilerfremd
zueinander
sind. Für jede Teilmenge J ⊂ {1, . . . , n}
ist deshalb P( j∈J Eaj ) =
j∈J P (aj ). Die Eigenschaft b) ist also in
der Tat äquivalent zu der Unabhängigkeit der Ereignisse Ea1 , . . . , Ean als
Gesamtheit.
4) Betrachten wir nun die Zahl N = 12, sowie mit n = 3 die Teiler
a1 = 2, a2 = 3, a3 = 4. Man sieht, dass E2 und E3 unabhängig sind, ebenso
E3 und E4 , hingegen sind E2 und E4 nicht unabhängig. Die Unabhängigkeit
ist also als Relation nicht transitiv.
5. Unabhängigkeit von Familien von Ereignissen. — Der Begriff
der Unabhängigkeit lässt sich folgendermassen auf Familien von Ereignissen
übertragen. Es sei eine endliche oder unendliche Folge (Cn ) von Familien von
Ereignissen gegeben.
Definition. — Man sagt, dass C1 und C2 unabhängig sind, wenn für
beliebige A1 ∈ C1 und A2 ∈ C2 , die Ereignisse A1 und A2 unabhängig sind.
Analog bezeichnet man die Folge (Cn ) als eine Folge von Familien gegenseitig unabhängiger oder als Gesamtheit unabhängiger Ereignisse, wenn für
jede Teilfolge Ci1 , . . . , Cik der Folge (Cn ) und jede Folge Ai1 ∈ Ci1 , . . . ,
Aik ∈ Cik von Ereignissen gilt
P(Ai1 . . . Aik ) = P(Ai1 ) . . . P(Aik ).
Der folgende Satz zeigt, dass es für den Nachweis der Unabhängigkeit
zweier Familien genügt, die definierende Eigenschaft für hinreichend stabile
Teilfamilien zu zeigen. Dabei spielt der Begriff eines Dynkin-Systems eine
wesentliche Rolle.
Satz 5.1. — Es seien C1 und C2 zwei Familien von Ereignissen. Es wird
vorausgesetzt, dass sie unabhängig sind, sowie abgeschlossen unter endlichen
Durchschnitten. Dann sind auch die von C1 und C2 erzeugten σ-Algebren
σ(C1 ) und σ(C2 ) unabhängig.
Beweis. — Es bezeichne E1 die Familie aller Ereignisse, die von jedem
Ereignis der Familie C2 unabhängig sind. Weiter oben wurde festgehalten,
dass die Familie DA aller Ereignisse, die von einem gegebenen Ereignis A
unabhängig sind, ein Dynkin-System bildet. Nun ist E1 nichts anderes als
der Durchschnitt DA (A ∈ C2 ), somit ist auch die Familie E1 ein DynkinSystem. Da dieses C1 enthält, enthält es auch das erzeugte Dynkin-System
D(C1 ). Somit sind D(C1 ) und C2 zwei Familien von unabhängigen Ereignissen.
Ganz analog zeigt man, dass die Familie E2 aller derjenigen Ereignisse,
die von D(C1 ) unabhängig sind, wiederum ein Dynkin-System ist. Dieses
74
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
enthält C2 und somit auch D(C2 ). Folglich sind die Familien D(C1 ) und D(C2 )
unabhängig.
Schliesslich sind die Familien C1 und C2 abgeschlossen unter endlichen
Durchschnitten, damit sind aber die erzeugten Dynkin-Systeme identisch
mit den jeweils erzeugten σ-Algebren. Somit sind σ(C1 ) = D(C1 ) und
σ(C2 ) = D(C2 ) unabhängig.
Da eine Algebra unter endlichen Durchschnitten abgeschlossen ist, kann
man aus Satz 5.1 eine Folgerung ziehen, die wegen ihrer Bedeutung als eigener
Satz formuliert werden soll.
Satz 5.2. — Sind A1 und A2 zwei unabhängige Algebren von Ereignissen, so sind auch die von ihnen erzeugten σ-Algebren σ(A1 ) und σ(A2 ) unabhängig.
6. Unabhängige Zufallsvariable. — Wir sind dem Begriff der von einer
Zufallsvariablen erzeugten σ-Algebra bereits begegnet. Ist X eine auf einem
Wahrscheinlichkeitsraum (Ω, A, P) definierte n-dimensionale Zufallsvariable,
so ist die von X erzeugte σ-Algebra σ(X) nichts anderes als die σ-Algebra
X −1 (Bn ). Das Konzept der Unabhängigkeit lässt sich somit folgendermassen
auf Zufallsvariable übertragen.
Definition. — Zwei (reelle oder n-dimensionale) Zufallsvariable X und Y ,
die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind, heissen
unabhängig, wenn die von ihnen erzeugten σ-Algebren σ(X) und σ(Y )
unabhängig sind.
Etwas genauer beschrieben: sind X und Y n- bzw. m-dimensionale Zufallsvariable, die beide auf dem Wahrscheinlichkeitsraum (Ω, A, P) definiert
sind, so sind sie unabhängig, wenn für jedes A ∈ Bn und jedes B ∈ Bm die
Gleichheit
P{X ∈ A, Y ∈ B} = P{X ∈ A}P{Y ∈ B}
gilt.
Ein Begriff, dem man in der Wahrscheinlichkeitstheorie immer wieder
begegnet, ist der einer Folge von gegenseitig oder als Gesamtheit unabhängigen Zufallsvariablen. Dessen formale Definition lautet folgendermassen:
Definition. — Ist (Xn ) eine auf einem Wahrscheinlichkeitsraum (Ω, A, P)
definierte Folge von Zufallsvariablen, so bezeichnet man sie als eine Folge
von unabhängigen Zufallsvariablen (und spricht auch von als Gesamtheit
unabhängigen Zufallsvariablen, um jede Zweideutigkeit zu vermeiden), wenn
die Folge der erzeugten σ-Algebren (σ(Xn)) eine als Gesamtheit unabhängige
Folge ist.
6. UNABHÄNGIGE ZUFALLSVARIABLE
75
Eine praktisch brauchbare Version dieser Definition sieht so aus: (Xn ) ist
eine Folge von unabhängigen Zufallsvariablen, wenn für jede endliche Teilfolge
Xi1 , . . . , Xik und jede endliche Folge B1 , . . . , Bk von Borel-Mengen die
Gleichheit
P{Xi1 ∈ B1 , . . . , Xik ∈ Bk } = P{Xi1 ∈ B1 } . . . P{Xik ∈ Bk }
gilt.
Im folgenden Satz wird ausgesagt, dass man sich zum Nachweis der Unabhängigkeit von zwei reellen Zufallsvariablen X und Y auf die Untersuchung
von Teilfamilien von Mengen, insbesondere auf Halbgeraden, beschränken
kann. Die Wahrscheinlichkeiten P{X ∈ A} für A =] − ∞, x] sind dann gleich
P{X ≤ x}, d.h. gleich F(x), wobei F die Verteilungsfunktion von X bezeichnet. Es genügt also, nachzuweisen, dass die gemeinsame Verteilungsfunktion
des Paares gerade das Produkt der Verteilungsfunktionen von X und Y ist.
Satz 6.1. — Es sei n ≥ 2 und X1 , . . . , Xn sei eine Folge von n reellen
Zufallsvariablen, alle definiert auf dem Wahrscheinlichkeitsraum (Ω, A, P).
Die Folge X1 , . . . , Xn ist genau dann (als Gesamtheit) unabhängig, wenn
die Verteilungsfunktion des Vektors X = (X1 , . . . , Xn ) gleich dem Produkt
der Verteilungsfunktionen F1 von X1 , . . . , Fn von Xn ist, d.h. wenn für jede
Folge (x1 , . . . , xn ) aus Rn gilt:
F(x1 , . . . , xn ) = F1 (x1 ) . . . Fn (xn ).
Beweis. — Es sollte genügen, dies im Falle n = 2 zu beweisen. Sind also
X1 und X2 unabhängig, so gilt
P{X1 ∈ B1 , X2 ∈ B2 } = P{X1 ∈ B2 }P{X2 ∈ B2 }
für jedes Paar B1 , B2 von Borel-Mengen. Nimmt man B1 =] − ∞, x1 ] und
B2 =] − ∞, x2 ], so erhält man gerade
(6.1)
F(x1 , x2 ) = F1 (x1 )F2 (x2 ).
Bezeichnet umgekehrt Ci die Familie der Ereignisse {Xi ≤ xi } (i = 1, 2),
so ist jede dieser Familien abgeschlossen unter endlichen Durchschnitten.
Gleichung (6.1) zeigt, dass C1 und C2 unabhängig sind. Das gilt dann auch
für die erzeugten σ-Algebren, die aber nichts anderes sind als die σ-Algebren
σ(X1 ) und σ(X2 ). Also sind die Zufallsvariablen X1 und X2 unabhängig.
Der abschliessende Satz erweist sich besonders dann als nützlich, wenn
man Transformationen von Zufallsvariablen betrachtet und sich davon
überzeugen will, dass die transformierten Variablen immer noch unabhängig
sind.
76
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
Satz 6.2. — Es sei n ≥ 2 und X1 , . . . , Xn sei eine Folge von n
(als Gesamtheit) unabhängigen Zufallsvariablen, die m-dimensional und alle
auf dem gleichen Wahrscheinlichkeitsraum (Ω, A, P) definiert sind. Weiter
seien messbare Funktionen fi : (Rm , Bm ) → (Rp , Bp ) (i = 1, . . . , n) gegeben.
Dann sind f1 ◦ X1 , . . . , fn ◦ Xn als Gesamtheit unabhängige p-dimensionale
Zufallsvariable.
Beweis. — Es ist nur nachzurechnen, dass
P{f1 ◦ X1 ∈ B1 , . . . , fn ◦ Xn ∈ Bn }
= P{X1 ∈ f1−1 (B1 ), . . . , Xn ∈ fn−1 (Bn )}
= P{X1 ∈ f1−1 (B1 )} . . . P{Xn ∈ fn−1 (Bn )}
= P{f1 ◦ X1 ∈ B1 } . . . P{fn ◦ Xn ∈ Bn }.
ERGÄNZUNGEN UND ÜBUNGEN
1. — Es seien A, B zwei Ereignisse. Man zeige, dass aus der Unabhängigkeit von A und B auch die Unabhängigkeit der erzeugten σ-Algebren
T(A) und T(B) folgt.
2. a) Es seien C1 und C2 zwei unabhängige Familien von Ereignissen. Dann
sind auch die von ihnen erzeugten monotonen Klassen M(C1 ) und M(C2 )
unabhängig.
b) Es seien A1 und A2 zwei unabhängige Algebren von Ereignissen.
Dann sind auch die von ihnen erzeugten σ-Algebren unabhängig.
3. — Beim Werfen eines perfekten Würfels betrachte man die beiden
Ereignisse:
A : die erzielte Augenzahl ist durch 2 teilbar ;
B : die erzielte Augenzahl ist durch 3 teilbar .
Man zeige, dass die Ereignisse A und B unabhängig sind.
4. a) Es seien A und B zwei unabhängige Ereignisse und es gelte zudem
noch, dass das Ereignis A das Ereignis B impliziert. Man zeige, dass dann
P(B) = 1 oder P(A) = 0 gilt.
b) Man zeige: ist A von sich selbst unabhängig, so gilt P(A) = 0 oder 1.
c) Man zeige, dass ein Ereignis A mit P(A) = 0 oder 1 von jedem
Ereignis unabhängig ist.
ERGÄNZUNGEN UND ÜBUNGEN
77
d) (J.-P. Dion) Die Unabhängigkeit, als Relation betrachtet, ist nicht
transitiv: es genügt, zwei unabhängige Ereignisse A, B mit 0 < P(A) < 1
zu betrachten. Dann ist A unabbhängig von B und B unabhängig von A,
aber A ist nicht unabhängig von A selbst.
5. — Nehmen wir an, es sei A unabhängig von B ∩ C und von B ∪ C,
weiterhin B unabhängig von C ∩ A und schliesslich C unabhängig von A ∩ B.
Ausserdem seien die Wahrscheinlichkeiten P(A), P(B), P(C) positiv. Dann
sind A, B, C gegenseitig unabhängig.
6. — Man zeige, dass folgende Situation auftreten kann: A ist unabhängig
von B ∩ C und von B ∪ C, aber weder von B, noch von C.
7. — Es seien A, B, C derart, dass A und B unabhängig relativ zu C und
C sind und A und C unabhängig voneinander sind. Man zeige, dass dann
A und B unabhängig sind.
Man zeige in gleicher Weise: ist (X, Y, Z) ein Tripel von Zufallsvariablen,
wobei X und Y unabhängig relativ zu Z sind und X und Z unabhängig sind,
dann sind auch X und Y unabhängig.
c
8. — In den beiden folgenden Beispielen sollte man, bevor man sich an die
Berechnung der gefragten bedingten Wahrscheinlichkeiten macht, ein Tripel
konstruieren, welches das Experiment beschreibt.
a) Ein Familienvater behauptet, zwei Kinder zu haben. Man berechne
die Wahrscheinlichkeit, dass es sich um zwei Jungen handelt, wenn man
zudem weiss
α) mindestens eines der Kinder ist ein Junge;
β) das ältere der Kinder ist ein Junge.
b) Man wähle zufällig ein Kind aus einer Familie mit zwei Kindern.
Aus der Kenntnis, dass das gewählte Kind ein Junge ist, ermittle man die
Wahrscheinlichkeit, dass beide Kinder dieser Familie Jungen sind.
9. — Man finde eine notwendige und hinreichende Bedingung dafür, dass
eine Zufallsvariable X von sich selbst unabhängig ist.
10. — Es seien X1 , X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Verteilung 12 (ε−1 + ε+1 ). Sind die drei Zufallsvariablen X1 , X2 ,
X3 = X1 X2 gegenseitig unabhängig? Sind sie paarweise unabhängig?
11. — Es sei (X1 , . . . , Xn ) eine Familie von n gegenseitig unabhängigen
Zufallsvariablen, mit den jeweiligen Verteilungsfunktionen F1 , . . . , Fn . Man
bestimme die Verteilungsfunktionen von Y = max(X1 , . . . , Xn ) und von
Z = min(X1 , . . . , Xn ).
78
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
12. — Es bezeichne Pr (k) (r ≥ 1) die Wahrscheinlichkeit, dass in eine
Telefonzentrale k Anrufe innerhalb von r Minuten eintreffen. Man unterstelle,
dass die Anzahlen der in zwei disjunkten Zeitintervallen eintreffenden Anrufe
durch zwei voneinander unabhängige Zufallsvariable geregelt werden.
a) Man berechne in Abhängigkeit von P1 (k) (k ≥ 0) die Wahrscheinlichkeit, dass in der Zentrale s Anrufe in zwei Minuten eintreffen.
ak
b) Für P1 (k) = e−a
(a > 0; k ∈ N), berechne man Pr (k) für alle r ≥ 1.
k!
13. Ziehungen mit und ohne Zurücklegen. — Eine Urne enthalte r + s
Kugeln, von denen r weiss und s schwarz (r, s ≥ 1) seien. Man führt
hintereinander n Ziehungen aus (n ≥ 1), wobei nach jeder Ziehung die
gezogene Kugel in die Urne zurückgelegt wird (bzw. nicht zurückgelegt wird).
Man bezeichne mit Ak (k = 1, . . . , n) das Ereignis man erhält bei der k-ten
Ziehung eine weisse Kugel und betrachte die Zufallsvariablen Xk = IAk
(k = 1, . . . , n) und Sn = X1 + · · · + Xn (die Anzahl der im Verlauf von n
Ziehungen erhaltenen weissen Kugeln).
Ziehung mit Zurücklegen; binomiales Modell. — Man wählt als Ω die
Menge aller Elemente ω = Aε11 ∩ · · · ∩ Aεnn , wobei Aε = A, falls ε = 1 und
Aε = Ac , falls ε = 0, und die Wahrscheinlichkeitsverteilung P auf Ω sei durch
P({ω}) = P(Aε11 ) . . . P(Aεnn ),
wobei P(A1 ) = · · · = P(An ) = p
gegeben.
Dann gilt:
a) Die Zufallsvariablen X1 , . . . , Xn sind gegenseitig unabhängig, sie
haben identische Verteilungen, und die Verteilung von Xk ist gegeben durch
P{Xk = 1} = p,
P{Xk = 0} = 1 − p,
b) Die Verteilung von Sn ist gegeben durch
n i
p (1 − p)n−i
P{Sn = i} =
i
k = 1, . . . , n.
0 ≤ i ≤ n.
Die Variable Sn genügt also einer Binomialverteilung, daher der Name des
Modells.
Ziehung ohne Zurücklegen; hypergeometrisches Modell. — In diesem Fall
erschöpft sich das Verfahren, denn die Urne ist nach r + s Ziehungen leer. Es
genügt also, die Situation für 1 ≤ n ≤ r + s zu betrachten. Betrachten wir
das (r + s)-Tupel (X1 , . . . , Xr+s ). Dazu nehmen wir als Grundmenge Ω die
εr+s
, wobei (ε1 , . . . , εr+s ) eine Folge
Menge aller Elemente ω = Aε11 ∩ · · · ∩ Ar+s
ist, die genau r-mal das Symbol 1 und s-mal das Symbol 0 enthält. Da die
79
ERGÄNZUNGEN UND ÜBUNGEN
weissen Kugeln
untereinander
ununterscheidbar sind (ebenso die schwarzen),
r+s
gilt card Ω = r . Also nehmen wir für P die Gleichverteilung auf Ω. Dann
gelten die folgenden Aussagen.
a) Die Zufallsvariablen X1 , . . . , Xr+s sind nicht gegenseitig unabhängig
(so gilt beispielsweise X1 + · · · + Xr+s = r), aber sie sind identisch verteilt,
wobei die Verteilung von Xk durch
P{Xk = 1} =
r
= p,
r+s
P{Xk = 0} = 1 − p,
k = 1, . . . , r + s
gegeben ist.
b) Es sei 1 ≤ n ≤ r + s. Die Verteilung von Sn = X1 + · · · + Xn ist
gegeben durch
 r s  i n−i
r+s
falls max(0, n − s) ≤ i ≤ min(n, r);
P{Sn = i} =

n
0,
sonst.
Die Zufallsvariable Sn genügt also der hypergeometrischen Verteilung, daher
auch der Name des Modells.
14. — Nochmals zu Aufgabe 13, mit den dort verwendeten Bezeichnungen.
Man berechne P{Xk = 1 | Sn = i}, zunächst für den Fall der Ziehungen mit
Zurücklegen, dann für Ziehungen ohne Zurücklegen.
15. Verallgemeinerung der Aufgabe 13 (multinomiales Modell). — Eine
Urne enthalte nun r1 Kugeln der Farbe C1 , . . . , rk Kugeln der Farbe Ck ,
wobei die Farben C1 , . . . , Ck verschieden seien. Man macht das gleiche
Experiment wie in Aufgabe 13 (n Ziehungen, jeweils mit Zurücklegen). Es
sei r1 + · · · + rk = m und pi = ri /m (1 ≤ i ≤ k). Mit Aij wird das
Ereignis bei der j-ten Ziehung wird eine Kugel der Farbe Ci gezogen (1 ≤ i ≤ k, 1 ≤ j ≤ n) bezeichnet. Schliesslich betrachte man die
Zufallsvariablen
Xij = IAij
(1 ≤ i ≤ k, 1 ≤ j ≤ n) ;
Xi =
n
Xij
(1 ≤ i ≤ k).
j=1
Die Zufallsvariable Xi gibt die Anzahl der Kugel von der Farbe Ci an, die im
Verlauf der n Ziehungen gezogen werden Man zeige, dass man also ein Tripel
(Ω, P(Ω), P) mit folgenden Eigenschaften konstruieren kann:
a) Die Zufallsvariablen Xi1 ,1 , . . . , Xin ,n sind gegenseitig unabhängig für
jede Folge (i1 , . . . , in ) ∈ {1, . . . , k}n . Ausserdem gilt
P{Xij = 1} = pi
(1 ≤ i ≤ k, 1 ≤ j ≤ n).
80
KAPITEL 6: BEDINGTE WAHRSCHEINLICHKEITEN.
b) Die Verteilung des k-dimensionalen Zufallsvektors X = (X1 , . . . , Xk )
ist durch
n
P{X1 = n1 , . . . , Xk = nk } =
pn1 . . . pnk k
n 1 , . . . , nk 1
gegeben. Das ist der Fall einer Multinomialverteilung.
16. — Drei Personen A, B, C werden zufällig auf einer Geraden
aufgestellt. Man betrachte die beiden Ereignisse:
E : B befindet sich rechts von A ;
F : C befindet sich rechts von A .
Sind diese beiden Ereignisse E und F unabhängig, wenn man auf der
Grundmenge die Gleichverteilung annimmt?
17. — Es sei Ω die Menge der acht verschiedenen möglichen Beobachtungen, die man machen kann, wenn eine Münze dreimal hintereinander geworfen
wird. Man betrachte die beiden Ereignisse:
A : beim ersten Wurf tritt “Zahl” auf ;
B : “Zahl” tritt mindestens zweimal auf .
a) Sind die Ereignisse A und B unabhängig, falls man auf Ω die
Gleichverteilung annimmt?
b) Gibt es eine Wahrscheinlichkeitsverteilung P auf Ω derart, dass A
und B unabhängig bezüglich P sind?
18. (E. Kosmanek). — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum, A, B
seien zwei Ereignisse aus A. Dann gilt |P(A ∩ B) − P(A)P(B)| ≤ 14 .
Man kann diese Ungleichung auf verschiedene Arten beweisen, die sich
auf die Schwarzsche Ungleichung zurückführen lassen. Einen direkten Beweis
kann man geben, indem man die Atome A∩B, A∩B c , Ac ∩B und Ac ∩B c
betrachtet. Bezeichnen α, β, γ und δ ihre jeweiligen Wahrscheinlichkeiten,
so gilt α + β + γ + δ = 1. Für e(A, B) = P(A ∩ B) − P(A)P(B) gilt dann
e(A, B) = α − (α + β)(α + γ) = α(1 − α − β − γ) − βγ = αδ − βγ, und somit
e(A, B) ≤ αδ ≤ 14 (weil α, δ ≥ 0, α + δ ≤ 1) sowie e(A, B) ≥ −βγ ≥ − 14
(weil β, γ ≥ 0, β + γ ≤ 1).
Man beobachtet, dass die Gleichheit αδ − βγ = 0 eine notwendige und
hinreichende Bedingung dafür ist, dass die Ereignisse A und B unabhängig
sind.
19. — Man verfügt über einen perfekten Würfel. Man denke sich ein Experiment aus, das aus zwölf disjunkten und gleichwahrscheinlichen Ereignissen besteht.
http://www.springer.com/978-3-7643-6169-3
Herunterladen