1 RECHNEN MIT WAHRSCHEINLICHKEITEN

1
1 RECHNEN MIT WAHRSCHEINLICHKEITEN
Inhalt:
1.1 Begriff der Wahrscheinlichkeit
1.2 Bedingte Wahrscheinlichkeit
1.3 Die Formel von Bayes
1.4 Übungsbeispiele
1.5 Repetitorium: Begriffe und Methoden
Lernziele:
1. Die Wahrscheinlichkeit von Ereignissen bei Zufallsexperimenten mit
endlich vielen, gleichwahrscheinlichen Ausgängen definieren und
berechnen können.
2. Die Eigenschaften des Wahrscheinlichkeitsmaßes P und elementare
Folgerungen aus den Eigenschaften wiedergeben können.
3. Das empirische Gesetz der großen Zahlen wiedergeben können.
4. Den Begriff der bedingten Wahrscheinlichkeit erklären und bedingte
Wahrscheinlichkeiten für einfache Anwendungssituationen berechnen
können.
5. Die Formel von Bayes erklären und zur Berechnung von a-posterioriWahrscheinlichkeiten anwenden.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
2
1.1 Begriff der Wahrscheinlichkeit
Lernziel 1.1:
Die Wahrscheinlichkeit von Ereignissen bei Zufallsexperimenten mit
endlich vielen, gleichwahrscheinlichen Ausgängen definieren und
berechnen können.
Definition: Zufallsexperiment
Ein Zufallsexperiment ist ein (im Prinzip beliebig oft wiederholbarer)
Vorgang mit verschiedenen Ausgängen ω1, ω2, …; welcher Ausgang bei
Durchführung des Experimentes eintritt, lässt sich nicht vorhersagen.
Die Gesamtheit aller Ausgänge eines Zufallsexperimentes heißt
Ergebnismenge Ω = { ω1, ω2, …}, jede Teilmenge E der Ergebnismenge
heißt ein Ereignis (kurz E ⊂ Ω). Man sagt „Das Ereignis E ist eingetreten,
wenn der beobachtete Ausgang ωi des Zufallsexperimentes ein Element
von E ist (kurz ωi ∈ E). Wenn E nicht eintritt, bedeutet dies, dass einer
der Ausgänge, die nicht Elemente von E sind, realisiert wurde; die
Zusammenfassung dieser Ausgänge zu einer Menge bildet das zu E
komplementäre Ereignis Ec = { ωi ∈ Ω | ωi ∉E}.
Das Ereignis Ω tritt bei jeder Durchführung des Zufallsexperimentes ein;
es wird daher auch als das sichere Ereignis genannt. Bildet man mit den
Teilmengen A⊂ Ω und B⊂ Ω die Vereinigung A ∪ B, so erhält man das
kurz als „A oder B“ benannte Ereignis, das genau dann eintritt, wenn
wenigstens eines der beiden Ereignisse A bzw. B eintritt. Der
Durchschnitt A ∩ B der Teilmengen A und B ist das kurz als „A und B“
benannte Ereignis; dieses tritt genau dann ein, wenn sowohl A als auch
B eintreten. Wenn A und B keine Elemente gemeinsam haben (d.h. nicht
gleichzeitig eintreten können), spricht man von disjunkten Ereignissen; in
diesem Fall ist der Durchschnitt A ∩ B gleich der leeren Menge, die
durch {} oder ∅ bezeichnet wird. Das durch die leere Menge
symbolisierte Ereignis heißt auch das unmögliche Ereignis, da es nie
eintreten kann.
Beispiel 1.1:
a) Das Ausspielen eines Würfels ist ein Zufallsexperiment mit den
Ausgängen ω1=1, ω2=2, ω3=3, ω4=4, ω5=5, ω6=6; die Ergebnismenge
ist Ω ={1, 2, 3, 4, 5, 6}. Die Teilmenge E = {2,4,6} = {ωi ∈ Ω | ωi gerade
Zahl} ist das Ereignis, eine gerade Zahl zu würfeln; E ist z.B.
eingetreten, wenn eine 6 gewürfelt wird.
b) Das folgende Diagramm gibt links Mendels Kreuzungsversuch von
reinerbigen Erbsen mit violetter bzw. weißer Blütenfarbe (V und w
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
3
bezeichnen die Erbanlagen für eine violette bzw. weiße Blütenfarbe, V
ist gegenüber w dominant) wieder. Die Entstehung eines Samens aus
einer mischerbigen Pflanze der F1-Generation (durch
Selbstbestäubung) ist ein Zufallsexperiment mit den in der
Ergebnismenge Ω ={VV, Vw, wV, ww} zusammengefassten
Ausgängen. Die Teilmenge E={wV, Vw} stellt das Ereignis dar, in der
F2-Generation einen mischerbigen Samen zu erhalten. Das zu E
komplementäre Ereignis Ec={VV, ww} bedeutet, dass in der F2Generation einen reinerbiger Samen gebildet wird.
Kreuzungsschema:
VV
Ergebnismenge:
x
ww
V
Vw
wV
ww
w
F1
F2
VV
x
Vw
VV
Vw
Vw
wV
ww
Ε = {wV, Vw}
Ω
Definition: Laplace-Wahrscheinlichkeit
Laplace-Experimente sind Zufallsexperimente mit einer endlichen Anzahl
n von gleichwahrscheinlichen Ausgängen. Für diese wurde von Laplace
der Begriff der Wahrscheinlichkeit durch folgende Überlegung eingeführt:
Wenn alle Ausgänge gleichwahrscheinlich sind, dann ist die
Wahrscheinlichkeit P(E) eines Ereignisses E umso größer, je mehr
Ausgänge Elemente dieses Ereignisses sind, d.h. P(E) ist proportional
zur Anzahl |E| der Ausgänge in E. Mit der Proportionalitätskonstanten c
können wir also schreiben P(E) = c |E|. Um einen von der Größe der
Ergebnismenge unabhängigen Wahrscheinlichkeitsbegriff zu erhalten,
hat Laplace eine Normierung so vorgenommen, dass in jedem Fall die
Wahrscheinlichkeit des sicheren Ereignisses Ω gleich 1 sein soll. Wegen
P(Ω) = c |Ω| = 1 folgt c = 1/|Ω| und schließlich die folgende Definition der
sogenannten Laplace-Wahrscheinlichkeit:
P( E ) =
Anzahl der für E günstigen Ausgänge | E |
=
Anzahl der möglichen Ausgänge
|Ω|
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
4
Beispiel 1.2:
Zwei (symmetrische) Würfel werden ausgespielt. Wie groß ist die
Wahrscheinlichkeit des Ereignisses E= “Summe der angezeigten
Augenzahlen gleich 7“?
Lösung: Jedes Ergebnis kann als Zahlenpaar (i,j) dargestellt werden,
wobei i die mit dem ersten und j die mit dem zweiten Würfel erhaltene
Zahl bedeutet (i,j =1,2,…, 6). Ordnet man alle möglichen Zahlenpaare in
einem aus 6 Zeilen und 6 Spalten bestehenden Schema an, so erhält
man folgende Matrix der möglichen sowie für E günstigen Ausgänge:
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Wegen |Ω|=36 und |E|=6 ist P(E|Ω)=6/36=1/6.
Lernziel 1.2:
Die Eigenschaften des Wahrscheinlichkeitsmaßes P und elementare
Folgerungen aus den Eigenschaften wiedergeben können.
Für die Wahrscheinlichkeit von Ereignissen gelten bei LaplaceExperimenten folgende Aussagen:
1. Für jedes Ereignis A⊂Ω ist P(A) ≥ 0 (Nichtnegativität).
2. Für das sichere Ereignis Ω ist P(Ω)=1 (Normiertheit).
3. Für zwei disjunkte Ereignisse A⊂Ω und B⊂Ω gilt die spezielle
Additionsregel: P(A ∪ B) = P(A) + P(B).
Diese Aussagen sind Teile des Axiomensystems von Kolomogoroff, in
dem die Wahrscheinlichkeit P eines Ereignisses für irgendein
Zufallsexperiment mit der (im Allgemeinen unendlichen) Ergebnismenge
Ω als eine Abbildung P: {E: E ⊂ Ω} → [0, 1] definiert ist, die jedem
Ereignis E ⊂ Ω eine nichtnegative reelle Zahl P(E) kleiner gleich 1
zuordnet.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
5
Anmerkung:
Tatsächlich ist das Wahrscheinlichkeitsmaß P nur für sogenannte
„zufällige Ereignisse“ E ⊂ Ω definiert. Die Gesamtheit aller zufälligen
Ereignisse bildet ein Mengensystem, das im Falle einer endlichen oder
abzählbar unendlichen Ergebnismenge Ω mit der Potenzmenge von Ω
(d.h. der Menge aller Teilmengen von Ω) übereinstimmt.
Folgerungen aus den Axiomen:
Es seien Ω die Ergebnismenge eines Zufallsexperimentes sowie A⊂ Ω
und B⊂ Ω zwei Ereignisse. Dann gilt:
Für jedes Ereignis A ist 0 ≤ P(A) ≤ 1.
P(∅) = 0.
Ist P(A) die Wahrscheinlichkeit des Ereignisses A, so ist die
Wahrscheinlichkeit des zu A komplementären Ereignisses Ac
gleich P(Ac) = 1 – P(A).
Für zwei beliebige Ereignisse A und B gilt die allgemeine
Additionsregel: P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
Begründung:
Das Ereignis A ∪ B kann als Summe
von 3 disjunkten Ereignissen in der
Form A∪B = (A-B)∪(A ∩ B) ∪(B – A)
dargestellt werden, woraus P(A∪B) =
P(A-B)+P(A ∩ B)+P(B-A) folgt. Wegen
A = (A–B)∪(A∩B) gilt P(A-B)= P(A)P(A∩B). Analog ist B = (B–A )∪(A∩B)
und folglich P(B-A)= P(B)-P(A∩B).
A
A∩B
Ω
Anmerkungen:
Der Bezug zur jeweiligen Ergebnismenge Ω wird gelegentlich
durch die ausführlichere Schreibweise P(E|Ω) präzisiert.
Das Verhältnis der Wahrscheinlichkeit eines Ereignisses A zur
Wahrscheinlichkeit des zu A komplementären Ereignisses Ac
P(A):P(Ac) wird auch als Chance (odds) von A gegen Ac
bezeichnet.
Beispiel 1.3:
a) Nach der Sterbetafel 2000/02 für Österreich ist die
Wahrscheinlichkeit des Ereignisses Em80, dass ein männlicher
Neugeborener das achtzigste Lebensjahr vollendet, durch
P(Em80)=0,460 gegeben. Wie groß sind die Wahrscheinlichkeiten
P(Em<80), dass ein männlicher Neugeborener vor dem achtzigsten
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
B
6
Lebensjahr stirbt? Wie groß ist die Chance des Ereignisses Em80
gegen Em<80?
Lösung: P(Em<80) = 1- P(Em80) = 54%; P(Em80):P(Em<80)=1:1,17.
b) Einer medizinischen Statistik ist zu entnehmen, dass 30% der
Bewohner eines Landes Übergewicht (Ereignis ÜG) und 20%
hohen Blutdruck (Ereignis HB) haben; auf 10% trifft beides zu. Man
berechne P(ÜG ∪ HB)!
Lösung:
P(ÜG∪HB)=P(ÜG) + P(HB) - P(ÜG∩HB) = 0,3+0,2-0,1=0,4.
Lernziel 1.3:
Das empirische Gesetz der großen Zahlen formulieren können.
Es sei Ω die Ergebnismenge eines Zufallsexperimentes und A⊂ Ω ein
Ereignis. Das Experiment wird n-mal ausgeführt. Die Anzahl der
Versuche, bei denen A eintritt, heißt die absolute Häufigkeit Hn(A) des
Ereignisses A. Dividiert man durch n, erhält man die relative Häufigkeit
yn(A)=Hn(A)/n des Ereignisses A bei n Versuchen.
Offensichtlich gilt yn(A) ≥ 0 und yn(Ω) =1. Ferner gilt für zwei disjunkte
Ereignisse A⊂ Ω und B⊂ Ω die Additionsregel yn(A ∪ B) = yn(A) + yn(B).
Man erkennt, dass bei der Definition des Wahrscheinlichkeitsmaßes P
grundlegende Eigenschaften der relativen Häufigkeit nachgebildet
wurden.
Der Zusammenhang zwischen relativer Häufigkeit und
Wahrscheinlichkeit eines Ereignisses wird auch durch folgende
Erfahrung begründet: Ein Zufallsexperiment (z.B. das Ausspielen eines
Würfels) wird wiederholt ausgeführt, wobei die einzelnen
Versuchsausführungen als voneinander unabhängig (d.h. einander nicht
beeinflussend) vorausgesetzt werden. Es zeigt sich dann, dass mit
wachsender Anzahl n der Versuchsdurchführungen die relativen
Häufigkeiten eines Ereignisses A⊂ Ω sich so verhalten, als würden sie
sich einem festen Wert nähern. In den Anwendungen wird von diesem
empirischen Konvergenzverhalten Gebrauch gemacht, wenn man die
Wahrscheinlichkeit P(A) eines Ereignisses A durch dessen relative
Häufigkeit yn(A) bei „großem“ n approximiert.
Beispiel 1.4:
Wenn ein fairer Würfel sehr oft ausgespielt wird, so zeigt die Erfahrung,
dass sich die relative Häufigkeit des Ereignisses „6er“ sich bei der
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
7
Laplace-Wahrscheinlichkeit P(6er) = 1/6 stabilisiert. Dies kann durch
eine Simulation veranschaulicht werden.
Lösung mit R:
R-Script:
# Simulation der relativen Häufigkeit der Augenzahl "6" beim
wiederholten
# Ausspielen eines idealen Würfels
n_sim <- 10000 # Anzahl der Simulationen
zaehler <- c(1: n_sim)
omega <- c(1, 2, 3, 4, 5, 6) # Ergebnismenge
wuerfelfolge <- sample(omega, n_sim, replace=T)
wuerfelfolge[wuerfelfolge != 6]=0 # Umbezeichnung der "Nicht-6er" auf 0
wuerfelfolge[wuerfelfolge == 6]=1 # Umbezeichnung der "6er" auf 1
h6 <- c() # Anteil der Sechser
for (i in zaehler){
k6 <- sum(wuerfelfolge[1:i]) # Anzahl der 6er bis zum i-ten Wurf
h6[i] <- k6/i
}
par(cex.axis=1.2, cex.lab=1.2)
plot(zaehler, h6, xlab="Wurf-Nummer", ylab="Anteil der 6er",
main="Relativen Häufigkeit der Augenzahl \"6\"
beim Auspielen eines Würfels")
lines(zaehler, h6)
abline(h=1/6, col="red")
text(9000, 0.18, col="red", expression("P(6er)=1/6"), cex=1.2)
Relativen Häufigkeit der Augenzahl "6"
beim Auspielen eines Würfels
Grafik:
0.10
0.00
0.05
Anteil der 6er
0.15
P(6er)=1/6
0
2000
4000
6000
8000
10000
Wurf-Nummer
Die „Stabilisierung“ der relativen Häufigkeit um einen festen Wert
bezeichnet man auch als empirisches Gesetz der großen Zahlen. So
bedeutsam dieser Befund für die Anwendungen ist, die Definition der
Wahrscheinlichkeit eines Ereignisses als Grenzwert von relativen
Häufigkeiten ist aber in einer mathematisch einwandfreien Weise nicht
möglich.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
8
1.2 Bedingte Wahrscheinlichkeit
Lernziel 1.4:
Den Begriff der bedingten Wahrscheinlichkeit erklären und bedingte
Wahrscheinlichkeiten für einfache Anwendungssituationen berechnen
können.
Definition:
Für zwei Ereignisse A ⊂ Ω (A≠∅) und
B ⊂ Ω ist die Wahrscheinlichkeit
P(B|A) von B unter der Bedingung A
(d.h. unter der Voraussetzung, dass
A eingetreten ist) definiert durch:
P( B | A) =
A
Β∩Α
Ω
P( B ∩ A)
P( A)
Veranschaulichung für Laplace-Experimente:
Bei der Bestimmung der Wahrscheinlichkeit von B unter der Bedingung
A übernimmt A die Rolle der Ergebnismenge (A ist eingetreten bedeutet,
dass einer der in A liegenden Ausgänge bei der Durchführung des
Zufallsexperimentes realisiert wurde). Von den in B liegenden
Ereignissen sind daher nur die für B „günstig“, die auch in A liegen (d.h.
in B ∩ A liegen), die möglichen Ausgänge sind die Elemente von A.
Somit ist für Laplace-Experimente:
P ( B | A) =
B ∩ A B ∩ A Ω P ( B ∩ A)
=
=
A
A Ω
P ( A)
Beispiel 1.5:
a) Nach der Sterbetafel 2000/02 für Österreich sind die
Wahrscheinlichkeiten der Ereignisse Em80 und Em50, dass ein
neugeborener Bub das achtzigste bzw. fünfzigste Lebensjahr
vollendet, durch P(Em80)=0.460 bzw. P(Em50)= 0.940 gegeben. Man
bestimme die Wahrscheinlichkeit P(Em80|Em50), dass eine 50-jähriger
Mann das achtzigste Lebensjahr vollendet.
Lösung:
Wegen Em80 ⊂ Em50 ist Em80 ∩ Em50 = Em80 und folglich P(Em80 ∩
Em50)= P(Em80). Somit ist P(Em80|Em50) = P(Em80 ∩ Em50)/P(Em50) =
P(Em80)/P(Em50) = 0.460/0.940 = 0.489.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
B
9
b) In der Medizin wird der Zusammenhang zwischen einem
interessierenden Risikofaktor R (R+ Risikofaktor vorhanden, R- nicht
vorhanden) und einer bestimmten Diagnose D (D+ Krankheit
vorhanden, D- Krankheit nicht vorhanden) durch das
Chancenverhältnis (Odds-Ratio)
OR =
P ( D+ | R + ) : P ( D − | R + )
P ( D+ | R− ) : P ( D− | R− )
beschrieben. Man berechne das Odds-Ratio für das Sterberisiko
eines Säuglings bei einem Geburtsgewicht m kleiner bzw. größer
gleich 2500g. Für Österreich ist die Wahrscheinlichkeit, dass ein
Säugling mit m < 2500 (m ≥ 2500) stirbt, gleich 0.0515 (0.0022).
Lösung:
D+ = „Säugling stirbt“, D-= “Säugling stirbt nicht“; R+= „m<2500“, R- =
„m ≥ 2500“; P(D+|R+) = 0,0515, P(D-|R+) = 1- P(D+|R+)=0.9485;
P(D+|R-) = 0.0022, P(D-|R-) = 1- P(D+|R-)= 0.9988;
OR = [(0.0515: 0.9485):(0.0022: 0.9988)] = 24.7.
Anmerkungen:
Für festes A ⊂ Ω (A≠∅) und beliebiges B ⊂ Ω gelten für die
bedingten Wahrscheinlichkeiten P(B|A) die gleichen Rechenregeln
wie für die unbedingten Wahrscheinlichkeiten P(B).
Aus der Definitionsgleichung für die bedingte Wahrscheinlichkeit
P(B|A) folgt unmittelbar die Multiplikationsregel für
Wahrscheinlichkeiten: P(B∩A) = P(B|A) P(A).
Im Allgemeinen sind die bedingten Wahrscheinlichkeiten P(B|A)
und P(A|B) voneinander verschieden. Wegen P(B∩A) = P(A∩B) =
P(A|B) P(B) gilt der Zusammenhang: P(B|A) P(A) = P(A|B) P(B).
Lernziel 1.5:
Die Multiplikationsregel für unabhängige Ereignisses kennen und
anwenden können.
Definition:
Es seien A (A≠∅) und B zwei Ereignisse eines Zufallsexperimentes mit
der Ergebnismenge Ω. Das Ereignis B heißt unabhängig vom Ereignis A,
wenn es für die Wahrscheinlichkeit des Ereignisses B ohne Belang ist,
ob A eintritt, d.h. wenn P(B) = P(B|A) ist.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
10
Folgerungen:
Ist das Ereignis B von A unabhängig, ist umgekehrt auch das
Ereignis A vom Ereignis B (B≠∅) unabhängig, d.h. P(A)=P(A|B).
Das Ereignis B ist genau dann vom Ereignis A unabhängig (und
ebenso A von B unabhängig), wenn P(B∩A) = P(B) P(A) gilt. Diese
Gleichung wird Multiplikationsregel für unabhängige Ereignisse
genannt.
Beispiel 1.6:
Bei einem Verfahren zur sterilen Abfüllung von Flaschen tritt mit der
Wahrscheinlichkeit p=0,1% ein Ausschuss (unsterile Flasche) auf. Es
werden n Flaschen zufällig aus einem (sehr großen) Produktionslos
entnommen (Prüfstichprobe). Wie viele Flaschen müssen zur Prüfung
vorgesehen werden, damit mit mindestens 95%iger Sicherheit
(Wahrscheinlichkeit) in der Prüfstichprobe (wenigstens) eine unsterile
Flasche auftritt?
Lösung:
Eic= (i-te Einheit der Prüfstichprobe ist steril), P(Eic) = 1-p (i=1,2,..n);
Ec=(E1c und E2c und E3c … und Enc); P(Ec) = (1-p)n;
E = (wenigstens eine unsterile Flasche in der Prüfstichprobe);
P(E) = 1 - (1-p)n ≥ 0.95
n ≥ ln(0.05)/ln(1-p) = 2994.2
n = 2995.
Lösung mit R:
R-Script:
# Beispiel 1.7
# n = Umfang der Prüfstichprobe
# p = Ausschussanteil
# alpha = Irrtumsrisiko
#
# Bestimmung des Umfangs der Prüfstichprobe
# options(digits=4) # Festlegung der Anzahl der signifikanten Stellen
n <- function(p, alpha){
log(alpha)/log(1-p)}
#
# Abhängigkeit des Umfangs der Prüfstichprobe vom Ausschussanteil
# Darstellung durch Wertetabelle
p_werte <- seq(from=0.0005, to=0.005, by=0.00025)
n_werte <- n(p_werte, 0.05)
print(cbind(p_werte, n_werte), digits=4)
# Darstellung durch Funktionsgrafen
plot(p_werte, n_werte, xlim=c(0.0005, 0.005), xlab="Ausschussanteil p",
ylab="n_Prüfstichprobe", main="Mindest-n für wenigstens 1 Unsterilität")
lines(p_werte, n_werte)
text(0.001,2000, expression(paste("95%")))
Ergebnisse:
Console:
p_werte n_werte
[1,] 0.00050 5990.0
[2,] 0.00075 3992.8
[3,] 0.00100 2994.2
[4,] 0.00125 2395.1
[5,] 0.00150 1995.7
[6,] 0.00175 1710.3
[7,] 0.00200 1496.4
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
11
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
0.00225
0.00250
0.00275
0.00300
0.00325
0.00350
0.00375
0.00400
0.00425
0.00450
0.00475
0.00500
1329.9
1196.8
1087.9
997.1
920.3
854.4
797.4
747.4
703.4
664.2
629.2
597.6
Grafik:
4000
3000
95%
1000
2000
n_Prüfstichprobe
5000
6000
Mindest-n für wenigstens 1 Unsterilität
0.001
0.002
0.003
0.004
0.005
Ausschussanteil p
Hinweis: Der erforderliche Umfang der Prüfstichprobe nimmt mit abnehmender
Ausschussanteil p zu; auch eine höhere Sicherheit erfordert ein höheres n!
1.3 Die Formel von Bayes
Lernziel 1.6:
Die Formel von Bayes erklären und zur Berechnung von a-posterioriWahrscheinlichkeiten anwenden können.
Es sei A ⊂ Ω (A≠∅, A≠Ω) und Ac das zu A komplementäre Ereignis.
Wegen A∪Ac = Ω und A∩Ac= ∅ liegt jedes Element von Ω entweder in A
oder in Ac. Jedes beliebige Ereignis B aus Ω kann dann als Vereinigung
der disjunkten Ereignisse B∩A und B∩Ac dargestellt werden, d.h. in der
Form B = (B∩A) ∪(B∩Ac). Damit erhält man für die Wahrscheinlichkeit
von B die Formel:
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
12
P( B) = P( B | A) P( A) + P( B | Ac ) P( Ac )
Diese Formel ist ein Sonderfall des sogenannten Satzes von der totalen
Wahrscheinlichkeit.
Indem man die Definitionsgleichung der bedingten Wahrscheinlichkeit
mit dem Satz von der totalen Wahrscheinlichkeit kombiniert, ergibt sich
der folgende Sonderfall
P( A | B) =
P( A ∩ B)
P( B | A) P( A)
=
P( B)
P( B | A) P( A) + P( B | Ac ) P( Ac )
der Bayes’sche Formel. Diese Formel verknüpft im betrachteten
Sonderfall die Wahrscheinlichkeit des Ereignisses A unter der Bedingung
B (also nach Kenntnis von B) mit der unbedingten Wahrscheinlichkeit
von A (vor Kenntnis von B). P(A|B) wird in diesem Zusammenhang
a-posteriori-Wahrscheinlichkeit, P(A) a-priori-Wahrscheinlichkeit
genannt. Die Berechnung der a-posteriori-Wahrscheinlichkeit setzt die
Kenntnis von P(A) und der bedingten Wahrscheinlichkeiten P(B|A) sowie
P(B|Ac) voraus.
Anwendung: Diagnostischer Test
Es seien D+ und D- die alternativen Ereignisse, dass eine Erkrankung
vorliegt bzw. nicht vorliegt. Die a-priori-Wahrscheinlichkeit P(D+) ist die
sogenannte Grundrate (Prävalenz) der Erkrankung in einer bestimmten
Zielpopulation. Wenn sich eine Person einem diagnostischen Test
unterzieht, kann dieser Test einen positiven Befund (Ereignis T+) oder
einen negativen Befund (Ereignis T-) ergeben. Der positive prädiktive
Wert ist die Wahrscheinlichkeit P(H+|T+), dass bei positivem Testbefund
eine Erkrankung vorliegt. Die Entscheidungssituation beim
diagnostischen Test wird durch folgendes Schema dargestellt:
Person ist gesund
(D-)
Person ist krank
(D+)
Test ist negativ (T-)
P(T-|D-)
= Spezifität
P(T-|D+)
(falsch-negatives
Ergebnis)
Test ist positiv (T+)
P(T+|D-)
(falsch-positives
Ergebnis)
P(T+|D+)=
Sensitivität
Für den positiven prädiktiven Wert ergibt sich mit Hilfe der Bayes’schen
Formel die Darstellung:
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
13
P ( D+ | T+ ) =
P(T+ | D+ ) P ( D+ )
P(T+ | D+ ) P ( D+ ) + P (T+ | D− ) P( D− )
Beispiel 1.7 (Diagnostischer Test):
Wenn eine Person das HIV-Virus in sich hat, beträgt die
Wahrscheinlichkeit praktisch 100%, dass der Test (ELISA) bei ihr positiv
ausfällt. Wenn die Person nicht infiziert ist, beträgt die
Wahrscheinlichkeit 99.8%, dass der Test bei ihr negativ ausfällt.
a) Man berechne für Männer, die keiner Risikogruppe angehören (von
diesen sind 0.01% mit HIV-infiziert) den positiven prädiktiven Wert,
d.h. die Wahrscheinlichkeit, dass bei positivem Testergebnis
tatsächlich eine HIV-Infektion vorliegt?
b) Eine Person mit positivem Testergebnis unterzieht sich dem Test ein
zweites Mal. Wie groß ist nun der positive prädiktive Wert, d.h. die
Wahrscheinlichkeit, dass die Erkrankung vorliegt, wenn auch der
zweite Test positiv ausgeht?
Lösung:
a) Prävalenz = P(D+) = 0,0001; P(D-) = 1 - P(D+) = 0.999;
P(T+|D+) = 1, P(T-|D+) = 1 - P(T+|D+) = 0;
P(T-|D-) = 0.998; P(T+|D-) = 1 - P(T-|DH-) = 1 – 0.998 = 0.002.
P(D+|T+) = 1⋅ 0.0001/[1⋅ 0.0001 + 0.002 ⋅ 0.9999] = 0.04762.
c) Prävalenz = P(D+|T+) = 0.0476; P(D-|T+) = 1 - P(D+|T+) = 0.95238;
P(T+|D+) = 1, P(T-|D-) = 0.998;
P(D+|T+) = 1⋅ 0.04762/[1⋅ 0.04762 + 0.002 ⋅ 0.95238] = 0.9615.
Lösung mit R:
R-Script:
# Beispiel 1.7
# PDpos = (unbedingte) Ws einer Erkrankung (positiven Diagnose)
# PTpos_Dpos = (bedingte) Ws für positiven Test, wenn Person krank
# PTneg_Dneg = (bedingte) Ws für negativen Test, wenn Person gesund
# PDpos_Tpos = (bedingte) Ws, dass Person krank, wenn Test positiv
#
# 1.7a
pos_praed_wert <- function(PDpos, PTpos_Dpos, PTneg_Dneg){
PDneg <- 1-PDpos
PTpos_Dneg <- 1-PTneg_Dneg
PTpos <- PTpos_Dpos*PDpos + PTpos_Dneg*PDneg
PDpos_Tpos <- PTpos_Dpos*PDpos/PTpos
return(PDpos_Tpos)}
PDpos <- 0.0001
PTpos_Dpos <- 1
PTneg_Dneg <- 0.998
P1 <- pos_praed_wert(PDpos, PTpos_Dpos, PTneg_Dneg)
print(cbind(PDpos, PTpos_Dpos, PTneg_Dneg,P1), digits=4)
#
# 1.7b
PDpos <- P1
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
14
P2 <- pos_praed_wert(PDpos,1,0.998)
print(cbind(PDpos, PTpos_Dpos, PTneg_Dneg,P2), digits=4)
Ergebnisse (Console):
1.8a
PDpos PTpos_Dpos PTneg_Dneg
[1,] 1e-04
1
0.998
1.8b
PDpos P
Tpos_Dpos PT
[1,] 0.04762
1
P1
0.04762
neg_Dneg
0.998
P2
0.9615
1.4 Übungsbeispiele
1. Man bestimme für Mendels Kreuzungsversuch von mischerbigen Erbsen vom
Genoptyp Vw bzw. wV (V und w bezeichnen die Erbanlagen für eine violette bzw.
weiße Blütenfarbe, V ist gegenüber w dominant) die Wahrscheinlichkeit des
Versuchsausganges A = {wV, Vw} unter der Annahme, dass alle Ausgänge
gleichwahrscheinlich sind. Mit welcher Chance tritt das Ergebnis A gegen Ac ein?
(1/2; 1:1)
2. Man gebe unter der Annahme, dass Knaben- und Mädchengeburten gleich
wahrscheinlich sind und der Ausgang einer Geburt das Ergebnis der nächsten
nicht beeinflußt, die Wahrscheinlichkeit dafür an, dass wenigstens zwei von den
drei Kindern einer Familie Mädchen sind! (1/2)
3. Mit welcher Wahrscheinlichkeit ist beim (gleichzeitigen) Ausspielen von 2 Würfeln
die Summe der Augenzahlen durch 4 teilbar? (9/36=1/4)
4. Von den 50 Teilnehmern eines Kurses sind 35 weiblich und 10 Raucher/innen.
Wie viele nicht-rauchende Teilnehmerinnen sind zu erwarten, wenn die Merkmale
„Geschlecht“ und „Rauchverhalten“ unabhängig sind? (28)
5. Von den 50 Müttern einer Geburtenstation waren 35 "Nichtraucherinnen" und 15
"Raucherinnen". Insgesamt wurden 30 Mädchen und 20 Knaben zur Welt
gebracht (keine Mehrlingsgeburten). Wie viele Mädchen sind von den
„Raucherinnen“ zu erwarten, wenn die Merkmale „Geschlecht des Kindes“ und
„Rauchverhalten der Mütter“ unabhängig sind? (9)
6. Bei der Bearbeitung eines Problems sind 3 voneinander unabhängige
Entscheidungen zu treffen, von denen jede einzelne mit der Wahrscheinlichkeit
5% eine Fehlentscheidung sein kann. Wie groß ist die simultane
Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass wenigstens in einem
Fall falsch entschieden wird? (14.3%)
7. Eine Frau hat Blutgruppe 0 (Genotyp 00), ihre Tochter Blutgruppe A (Genotyp AA
oder A0). Letztere heiratet einen Mann mit der Blutgruppe AB (Genotyp AB). Wie
groß ist die Wahrscheinlichkeit, dass ein Kind mit der Blutgruppe A geboren wird?
(1/2)
8. Wie groß ist die Wahrscheinlichkeit, dass die drei Kinder einer Familie Mädchen
sind, wenn bekannt ist, dass a) das erste Kind ein Mädchen ist und b) eines der
Kinder ein Mädchen ist? (1/4; 1/7)
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
15
9. Zwei Testpräparate A und zwei Placebos B werden in einem Doppelblindversuch
nacheinander auf 4 Probanden verteilt. Wie groß ist die Wahrscheinlichkeit, dass
a) ein Proband ein Testpräparat erhält, b) ein Placebo erhält, c) der vierte
Proband ein Textpräparat erhält, wenn durch eine Indiskretion bekannt ist, dass
der erste ein Placebo erhalten hat? (1/2; 1/2; 2/3)
10. Bei seinen Versuchen mit der Erbse Pisum sativum führte Mendel u.a. dihybride
Kreuzungen durch, also Kreuzungen von Pflanzen, die sich in zwei Merkmalen
unterschieden. Eines der betrachteten Merkmalspaare bestand aus der
Samenform und der Samenfarbe. Die Samen sind entweder von „runder“ oder
„kantiger“ Form und entweder „gelb“ oder „grün“ gefärbt. Mendel kreuzte zuerst
zwei bezüglich Samenform und Samenfarbe mischerbige Pflanzen. Wegen der
Dominanzbeziehungen – das Gen für die runde Samenform und das Gen für die
gelbe Samenfarbe sind dominant über dem Gen für die kantige Form bzw. dem
Gen für die gründe Farbe – waren die aus dieser Kreuzung hervorgehenden
Samen rund und gelb. Indem Mendel aus diesen Samen gezogene Pflanzen
selbstbestäubte, erhielt er runde und gelbe, kantige und gelbe, runde und grüne
bzw. kantige und grüne Samen im Verhältnis 9:3:3:1. Hinsichtlich der Samenfarbe
allein stellte er ein Aufspaltungsverhältnis von 3:1 zwischen gelb und grün
gefärbten Samen fest. Das gleiche Aufspaltungsverhältnis ergab hinsichtlich der
Samenform zwischen den runden und kantigen Samen. Man zeige, dass die
„Unabhängigkeitsregel“ gilt, d.h., die bedingte Wahrscheinlichkeit P(Samenform =
rund| Samenfarbe =gelb) gleich der unbedingten Wahrscheinlichkeit
P(Samenform = rund) ist.
11. In einem Unternehmen mit 500 Beschäftigten werden im Zuge einer
Grippeimpfung 300 geimpft. In der Folge erkrankten 50 Personen, von denen 15
geimpft waren. Wie groß ist die Wahrscheinlichkeit dafür, dass a) eine Person
erkrankt, b) eine geimpfte Person erkrankt, c) eine erkrankte Person zur Gruppe
der Geimpften gehört? ( 0.1; 0.05; 0.03)
12. Es seien w(0, a) und m(0, a) die Wahrscheinlichkeiten, dass eine Frau bzw. ein
Mann im Alter von null Jahren, das a-te bzw. b-te Lebensjahr erlebt. Die in der
folgenden Tabelle angegebenen Erlebenswahrscheinlichkeiten sind der
Sterbetafel 1990/92 für Österreich entnommen.
Alter m(0, a)
a
(Männer)
20
0.98319
40
0.95545
45
0.94109
60
0.83586
65
0.76077
80
0.36537
w(0, a)
(Frauen)
0.98902
0.97819
0.97077
0.91892
0.88268
0.58483
Wir betrachten ein Ehepaar, in dem der weibliche Partner a = 40 Lebensjahre
und der männliche Partner b = 45 Lebensjahre vollendet haben. Die
entsprechenden Erlebenswahrscheinlichkeiten sind w(0, 40) = 0.97819 bzw.
m(0, 45) = 0.94109.
a) Man bestimme die Wahrscheinlichkeit w(a, n) dass der (40-jährige)
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
16
weibliche Partner die nachfolgenden n=20 Jahre überlebt; ebenso die
Wahrscheinlichkeit, dass der (45-jährige) männliche Partner die 20 Jahre
überlebt. (0.9394, 0.8084)
b) Wie groß ist die Wahrscheinlichkeit, dass beide Partner die nachfolgenden
20 Jahre gemeinsam erleben. (0.7594)
13. In einer Population sei die Wahrscheinlichkeit, dass eine Frau (ein Mann)
farbenblind ist, gleich 0.03 (0.07). Das Geschlechtsverhältnis sei 1:1.05
(männlich:weiblich). Man berechne a) die Wahrscheinlichkeit, dass eine zufällig
ausgewählte Person farbenblind ist, und b) die Wahrscheinlichkeit, dass eine
farbenblinde Person eine Frau ist. (4.95%; 31.03%)
14. In der Firma Newbiotech haben 30% der Mitarbeiter/innen einen Universitätsoder Fachhochschulabschluss, 80% davon sind in leitenden Positionen tätig. Von
den Mitarbeiter/innen ohne Universitäts- oder Fachhochschulabschluss sind
dagegen nur 30% in leitenden Funktionen. Wie groß ist die Wahrscheinlichkeit,
dass eine Person in leitender Funktion einen Universitäts- oder
Fachhochschulabschluss besitzt? (53.3%)
15. Aus Statistiken sei bekannt, dass eine aus einer gewissen Population nach einem
Zufallsverfahren ausgewählte Person mit der Wahrscheinlichkeit 0,3% die
Krankheit K1 und mit der Wahrscheinlichkeit 0.5% die Krankheit K2 aufweist.
Ferner sei bekannt, dass ein Symptom S bei der Krankheit K1 (K2) mit der
Wahrscheinlichkeit 0.75 (0.5) zu erwarten ist. Man bestimme die a posterioriWahrscheinlichkeit für die Krankheiten K1 und K2, wenn das Symptom S
beobachtet wurde; dabei wird angenommen, dass die beiden Krankheiten nicht
gemeinsam auftreten können und die einzigen Krankheiten sind, die zum
betrachteten Symptom führen. (0.474; 0.526)
16. Ein Unternehmen verwendet zur Besetzung einer speziellen Position einen
Aufnahmetest. Den Test bestehen 70% der Bewerber/innen, von denen sich 80%
in der Probezeit tatsächlich bewähren. Von den Bewerber/innen, die den Test
nicht bestehen, bewähren sich erfahrungsgemäß nur 60%. Welcher %-Satz an
Bewerber/innen mit erfolgreich absolvierter Probezeit wäre zu erwarten, wenn
keine Vorauswahl (d.h. kein Aufnahmetest) stattfindet? (74%)
17. Aufgabe der Diskriminanzanalyse ist es, Objekte auf Grund ihrer Eigenschaften
(Merkmalswerte) vorgegebenen Klassen zuzuweisen. Es sei O ein Objekt mit der
Eigenschaft A; das Objekt O gehöre einer der Klassen K1 und K2 an. Bekannt ist,
dass Objekte der Klasse K1 die beobachtete Eigenschaft A mit der
Wahrscheinlichkeit P(A|K1)= 0,7 besitzen; dagegen weisen Objekte der Klasse K2
diese Eigenschaft mit der Wahrscheinlichkeit P(A|K2)= 0,5 auf. Es seien P(K1)
=0,5 und P(K2) =0,5 die a priori-Wahrscheinlichkeiten, dass O zu K1 bzw. K2
gehört, d.h., über die Klassenzugehörigkeit ist a priori nichts bekannt ist. Wie groß
sind die a-posteriori-Wahrscheinlichkeiten P(K1|A) und P(K2|A), dass O der
Klasse K1 bzw. K2 angehört? Welcher Klasse soll O zugewiesen werden? (0.583;
0.417; K1)
18. Es ist in einer bestimmten Region bekannt, dass eine 50-jährige, symptomfreie
Person mit einer Wahrscheinlichkeit von 0.3% an Darmkrebs erkrankt. Wenn eine
Person Darmkrebs hat, beträgt die Wahrscheinlichkeit 50%, dass der
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
17
Hämokkulttest positiv ausfällt. Wenn eine Person keinen Darmkrebs hat, liegt die
Wahrscheinlichkeit, dass der Test dennoch positiv ausfällt, bei 3%. Angenommen
bei einer bestimmten Person (über 50 Jahre, symptomfrei) ist das Testergebnis
positiv. Mit welcher Wahrscheinlichkeit hat die Person wirklich Darmkrebs?
(4.78%)
19. Ein medizinischer Test zum Nachweis einer Erkrankung K liefert mit 95%-iger
Wahrscheinlichkeit ein richtig-positives Ergebnis und mit 5%-iger
Wahrscheinlichkeit ein falsch-positives Ergebnis. Wie groß ist die Prävalenz von
K (d.h. die Wahrscheinlichkeit, mit der K in der betrachteten Region auftritt), wenn
die Wahrscheinlichkeit eines positiven Testausgangs 23% beträgt? (20%)
20. Mit einem statistischen Test soll eine Entscheidung herbeigeführt werden, ob zwei
Versuchsbedingungen auf den Mittelwert eines Untersuchungsmerkmals X eine
verschiedene (Alternative H1) oder gleichartige (Hypothese H0) Wirkung ausüben.
Der Test wurde mit der Irrtumswahrscheinlichkeit P(Entscheidung für H1|H0) = 5%
und der Power P(Entscheidung für H1|H1) = 90% geplant. Man stelle die
Abhängigkeit der a-posteriori Wahrscheinlichkeit P(H1|Entscheidung für H1) in
Abhängigkeit von der a-priori Wahrscheinlichkeit P(H1) dar? Welcher Wert ergibt
sich speziell für P(H1) = 10%? (66.7%)
21. Ein einfacher Prüfplan besteht darin, dass n Einheiten aus einem Los zufällig
ausgewählt und auf Fehlerhaftigkeit überprüft werden. Das Los wird
zurückgewiesen, wenn die Anzahl X der fehlerhaften Einheiten größer als c ist.
Wie groß ist die Wahrscheinlichkeit P(X≤c) für eine Annahme des Loses, wenn
der Anteil p von fehlerhaften Einheiten (Ausschussanteil) gleich po=0.5% ist? Für
die Rechnung sei n=55 und c=1; ferner nehme man an, dass sich der
Ausschussanteil während der Entnahme der Prüfstichprobe nicht ändert, was mit
guter Näherung der Fall ist, wenn der Umfang N des Prüfloses sehr groß ist (z.B.
N=1000). (3.1%)
22. Wie groß ist die Wahrscheinlichkeit, dass zwei Geschwister bezüglich eines
Genortes mit den Allelen A1 und A2 keine abstammungsgleichen Gene besitzen?
(Zwei Gene heißen abstammungsgleich, wenn sie Kopien ein und desselben
Gens in der Elterngeneration sind. Man setze die Genotypen der Eltern allgemein
mit α1α2 und β1β2 an, wobei man sich für α1, α2, β1 bzw. β2 eines der Allele A1
bzw. A2 eingesetzt zu denken hat. Anschließend bilde man alle in der F1Generation möglichen Genotypen und zähle von den 16 möglichen
Kombinationen der Genotypen jene ab, die keine abstammungsgleichen Gene
tragen.) (1/4)
23. Wie oft muss ein (symmetrischer) Würfel ausgespielt werden, damit die Serie der
Ergebnisse mit einer Sicherheit (d.h. Wahrscheinlichkeit) von mindestens 95%
einen "Sechser" enthält? (17)
24. Der Diversitätsindex C nach Simpson ist definiert als die Wahrscheinlichkeit, dass
zwei aus einer Artengemeinschaft nacheinander zufällig ausgewählte Individuen
zur selben Art gehören. Man bestimme C für eine Artengemeinschaft aus den
zwei Arten S1 und S2 mit n1=50 bzw. n2=100 Individuen.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
18
25. In einer Population sei die Wahrscheinlichkeit, dass in einem Zwillingspaar beide
Geschwister weiblich sind, gleich 0.3. Unter Beachtung, dass eineiige Zwillinge
stets von gleichem Geschlecht sind, und bei zweieiigen Zwillingen alle
Geschlechterkombinationen mit gleicher Wahrscheinlichkeit auftreten können,
berechne man die Wahrscheinlichkeit, dass es sich bei einem Zwillingspaar um
eineiige Zwillinge handelt? (0.2)
26. Man betrachte die Samenform (Ausprägungen glatt bzw. kantig) der Erbse Pisum
sativum. Es sei A das die Ausprägung „glatt“ bestimmende Gen und a das Gen
für die Ausprägung „kantig“ (A ist dominant über a). Die aus einem mischerbigen
Genotyp durch Selbstbestäubung hervorgehenden Nachkommen (F2-Pflanzen)
besitzen entweder glatte Samen (Genotypen AA, Aa bzw. aA) oder kantige
Samen (Genotyp aa). Die Genotypen AA, Aa (=aA) und aa treten im Verhältnis 1 :
2:1 auf. Da die Genotypen AA und Aa (=aA) im Phänotyp (glatte Samenform)
übereinstimmen, muss man die Reinerbigkeit eines glatten Samens durch ein
spezielles Verfahren ermitteln. Jemand schlägt dazu folgende Vorgangsweise
vor: Man ziehe aus einem von einer F2-Pflanze stammenden (glatten) Samen
eine Tochterpflanze und bezeichne die F2-Pflanze dann als reinerbig, wenn ihre
(durch Selbstbestäubung) entstehenden Samen die dominante
Merkmalsausprägung (glatte Samenform) zeigen. Wie groß ist die
Wahrscheinlichkeit, dass eine nach diesem Verfahren als reinerbig klassifizierte
eine F2-Pflanze tatsächlich reinerbig ist? (40%)
27. Im vorhergehenden Beispiel ist die ursprüngliche Wahrscheinlichkeit, dass eine
F2-Pflanze mit glatten Samen reinerbig ist, durch 1/3 gegeben (a-prioriWahrscheinlichkeit). Die Wahrscheinlichkeit erhöht sich auf den Wert 0,4 (aposteriori-Wahrscheinlichkeit), wenn eine aus einem Samen gezogene F3-Pflanze
wieder Samen mit glatter Form hervorbringt. Indem man den Wert 0,4 als neue apriori-Wahrscheinlichkeit betrachtet, berechne man die Wahrscheinlichkeit, dass
eine aus einer F3-Pflanze (mit glatten Samen) gezogene F4-Pflanze reinerbig ist,
wenn ihre Samen glatt sind. (57,1%). Welche Wahrscheinlichkeit ergibt sich für
die F12-Pflanze? (89.9%)
28. Bei einem Patienten stehen drei Diagnosen A, B oder C zur Wahl. Es wird ein
diagnostischer Test angewendet, der bei Vorliegen von A mit 90%iger
Wahrscheinlichkeit positiv ausfällt, bei Vorliegen von B mit 20%iger
Wahrscheinlichkeit und bei Vorliegen von C mit 10%iger Wahrscheinlichkeit. Das
Testresultat für den Patienten ist positiv. Wie groß ist die Wahrscheinlichkeit, dass
A vorliegt, wenn alle drei Krankheiten als gleichwahrscheinlich angesehen
werden? (75%)
29. Bei einem diagnostischen Verfahren zum Nachweis einer Erkrankung sei die
Wahrscheinlichkeit, ein falsch-negatives (falsch-positives) Ergebnis zu erhalten,
gleich 0,3% (10%). Die Wahrscheinlichkeit für das Auftreten der Krankheit in einer
bestimmten Zielgruppe sei 0,5%.
a) Man berechne die Wahrscheinlichkeit, dass bei positivem Ergebnis
tatsächlich eine Erkrankung vorliegt. (0.0477)
b) Eine Person mit positivem Testergebnis unterzieht sich ein zweites Mal
dem Test. Wie groß ist die Wahrscheinlichkeit, dass eine Erkrankung
vorliegt, wenn der Test positiv ausfällt? (0.3331)
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
19
30. Ziegenproblem: In einer populären Fernsehshow bekam ein Kandidat die
Chance, eine großen Preis (Auto) zu gewinnen. Dazu musste die richtige Wahl
zwischen drei Türen getroffen werden; hinter einer steht ein Auto, hinter den
beiden anderen je eine Ziege. Der Kandidat wählt z.B. Tür 1, und der
Showmaster (der weiß, was sich hinter jeder Tür befindet) öffnet Tür 3 (wo natürlich - eine Ziege zum Vorschein kommt) und fragt den Kandidaten, ob er sich
seine Wahl noch einmal überlegen, also wechseln will. Ist es ein Vorteil, die Wahl
der Tür zu ändern? (ja)
1.5 Repetitorium: Begriffe und Methoden
1. Sie werden gefragt, warum die Wahrscheinlichkeit 1/6 beträgt, beim einmaligen
Ausspielen eines Würfels einen Sechser zu erhalten. Wie antworten Sie auf die
Frage?
Antwort:
Beim Ausspielen eines (fairen) Würfels handelt es sich um ein Zufallsexperiment
mit 6 gleichwahrscheinlichen Ausgängen. Jede Zusammenfassung von
Ausgängen zu einer Menge wird ein Ereignis genannt. Das Ereignis, das alle
Ausgänge umfasst, heißt Ergebnismenge Ω des Zufallsexperiments; die 1elementigen Ereignisse entsprechen den verschiedenen Ausgängen des
Zufallsexperimentes. Wenn alle Ausgänge gleichwahrscheinlich sind, ist es
zweckmäßig, die Wahrscheinlichkeit P(E) eines Ereignisses E mit einem Maß zu
erfassen, das proportional zur Anzahl |E| der Ausgänge in E ist, d.h. P(E) = c x |E|
mit der Proportionalitätskonstanten c. Um die Wahrscheinlichkeiten von
Ereignissen zu Zufallsexperimenten mit verschiedener Anzahl von Ausgängen
vergleichen zu können, wird die Normierung P(Ω) = c| Ω | = 1 vorgenommen. Aus
dieser Normierungsbedingung ergibt sich die Proportionalitätskonstante c=1/| Ω |
und die sogenannte Laplace’sche Definition P(E)=|E|/| Ω | der Wahrscheinlichkeit.
Beim Ausspielen eines Würfels ist E={6}, Ω ={1,2,3,4,5,6} und daher P(E) = 1/6.
2. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines
Zufallsexperimentes. Was verstehen Sie unter dem Ereignis E = „A oder B“? Mit
welcher Regel können Sie die Wahrscheinlichkeit von E auf die
Wahrscheinlichkeiten P(A) und P(B) zurückführen. Erläutern Sie die Regel an
Hand eines Ereignisses A und des zu A komplementären Ereignisses!
Antwort:
Das Ereignis E = „A oder B“ tritt genau dann ein, wenn entweder A (und nicht B)
oder B (und nicht A) oder sowohl A als auch B eintritt; in anderen Worten umfasst
das Ereignis E = „A oder B“ jene Ausgänge von Ω, die in A (und nicht in B) oder
in B (und nicht in A) oder sowohl in A als auch in B liegen. Wenn die Ereignisse A
und B disjunkt sind, es also keine Ausgänge von Ω gibt, die sowohl in A als auch
in B liegen), dann ist die Wahrscheinlichkeit des zusammengesetzten Ereignisses
E = „A oder B“ gleich der Summe der Wahrscheinlichkeit von A und der
Wahrscheinlichkeit von B; diese Aussage heißt Additionsregel für disjunkte
Ereignisse dar und wird formelmäßig durch P(A oder B) = P(A) + P(B)
ausgedrückt.
Ein Paar von speziellen disjunkten Ereignissen sind ein Ereignis E und das zu E
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
20
komplementäre Ereignis Ec, das alle Ausgänge von Ω enthält, die nicht in E
liegen. Die Ausgänge von E und Ec ergeben vereint das sichere Ereignis Ω= „E
oder Ec“, das mit der Wahrscheinlichkeit P(Ω)=1 bei jeder Durchführung des
Zufallsexperiments eintritt. Es folgt P(Ω)= P(E oder Ec) = P(EX) + P(Ec) = 1.
3. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines
Zufallsexperimentes mit endlich vielen, gleichwahrscheinlichen Ausgängen. Was
versteht man unter der bedingten Wahrscheinlichkeit P(A|B) und wie bestimmt
man diese Wahrscheinlichkeit? Wann sind die Ereignisse A und B voneinander
unabhängig?
Antwort:
Die bedingte Wahrscheinlichkeit P(A|B) ist die Wahrscheinlichkeit des
Ereignisses A unter der Voraussetzung, dass B eingetreten ist. Dies bedeutet,
dass – bei der Bestimmung der Wahrscheinlichkeit von A – das Ereignis B die
Rolle der Ergebnismenge übernimmt, die – unter der Voraussetzung, dass B
eingetreten ist – alle nunmehr möglichen Ausgänge (das sind jene Ausgänge in
B) umfasst. Die in der Laplace’schen Wahrscheinlichkeitsdefinition angeführte
„günstigen Fälle“ sind jene Ausgänge von A, die auch in B liegen. Die
Zusammenfassung dieser Ausgänge ist das Ereignis „A und B“. Indem |A und B|,
|B| und |Ω| die Anzahl der Elemente in „A und B“, B bzw. Ω ausdrücken, kann die
bedingte Wahrscheinlichkeit P(A|B) durch P(A|B) = |A und B|/|B| dargestellt
werden.
(Hinweis: Dividiert man hier den Zähler und Nenner durch |Ω|, steht im Zähler die
Wahrscheinlichkeit P(A und B) und im Nenner die Wahrscheinlichkeit P(B). Die
Formel P(A|B)= P(A und B)/ P(B) ist die allgemeingültige Definitionsgleichung der
bedingten Wahrscheinlichkeit P(A|B) für den Fall P(B)>0.)
Die Ereignisse A und B heißen voneinander unabhängig, wenn P(A) = P(A|B) gilt,
d.h., das Eintreten von B keinen Einfluss auf die Wahrscheinlichkeit von A hat.
4. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines
Zufallsexperimentes. Was verstehen Sie unter dem Ereignis E= „A und B“? Wie
bestimmen Sie die Wahrscheinlichkeit von E, wenn A und B unabhängige
Ereignisse sind? Geben Sie ein Beispiel für die Anwendung der
Multiplikationsregel für unabhängige Ereignisse!
Antwort:
Das Ereignis E=“A und B“ tritt genau dann ein, wenn sowohl A als auch B eintritt,
d.h., das Ereignis E umfasst jene Ausgänge von Ω, die sowohl in A als auch in B
liegen. Aus der Definitionsgleichung der bedingten Wahrscheinlichkeit P(A|B)=
P(A und B)/P(B) ergibt sich durch Umordnen die sogenannte allgemeine
Multiplikationsregel P(A und B) = P(A|B) P(B). Wenn die Ereignisse A und B
unabhängig sind, gilt P(A|B) = P(A); die allgemeine Multiplikationsegel nimmt für
unabhängige Ereignisse die spezielle Gestalt P(A und B) = P(A) P(B) an. Ein
einfaches Beispiel für die Anwendung dieser Regel liefert das zweimalige
Ausspielen eines Würfels: Die Wahrscheinlichkeit, beim ersten Ausspielen einen
6er zu würfeln (Ereignis A) und ebenso beim zweiten Ausspielen (Ereignis B) ist bei angenommener Unabhängigkeit dieser Ereignisse – durch P(A und B) =
P(A) P(B) = 1/6 x 1/6 = 1/36 gegeben.
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14
21
5. Wie gehen Sie vor, um für eine Person die Wahrscheinlichkeit P(K+|T+) dafür zu
bestimmen, dass bei positivem Ausgang (Ereignis T+) eines diagnostischen Tests
eine bestimmte Erkrankung wirklich zutrifft (Ereignis K+)? Welche Informationen
über den Test und über das Auftreten des Ereignisses K+ in der Population, der
die Person angehört, müssen Sie zur Beantwortung der Frage kennen?
Antwort:
Vom Ereignis K+ muss bekannt sein, mit welcher (a priori-) Wahrscheinlichkeit
P(K+) es in der Population eintritt. Vom diagnostischen Test müssen wir zwei
Kenngrößen wissen: Die Sensitivität P(T+|K+), d.h. die Wahrscheinlichkeit, dass
bei Vorliegen der Erkrankung K+ der Test positiv ausfällt, sowie die Spezifität
P(T-|K-), d.h. die Wahrscheinlichkeit, dass der Test ein negatives Ergebnis
(Ereignis T-) liefert, wenn die Erkrankung nicht vorliegt (Ereignis K-).
Bei der Bestimmung der gesuchten Wahrscheinlichkeit P(K+|T+) ist es nützlich,
die Population in „Erkrankte“ und „Nichterkrankte“ zu strukturieren; entsprechend
den beiden möglichen Testausgängen, spalten wir die Kategorien „Erkrankte“ und
die „Nichterkrankte“ weiter in „Testpositive“ und „Testnegative“ auf, sodass es –
nach Durchführung des Tests - vier mögliche Ereignisse gibt: „Erkrankt und
Testpositiv“, „Erkrankt und Testnegativ“, „Nichterkrankt und Testnegativ“ sowie
„Nichterkrankt und Testnegativ“. Es folgt, dass das Ereignis T+ (positiver
Testausgang) genau dann eintritt, wenn entweder die Erkrankung vorliegt und der
Test positiv ausfällt (Ereignis „K+ und T+“) oder die Erkrankung nicht vorliegt und
der Test positiv ausfällt (Ereignis „K- und T+“ ). Diese beiden Ereignisse sind
disjunkt, so dass die Additionsregel in der einfachen Form P(„K+ und T+“ oder „Kund T-„) = P(K+ und T+) + P(K- und T+) angewendet werden kann. Ferner sind
die Ereignisse K+ und T+ (und ebenso die Ereignisse K- und T+) sachlogisch
unabhängig, denn ob eine Person erkrankt, hat nichts mit einem in der Folge
allenfalls angewandten diagnostischen Test zu tun. Die Anwendung der
Multiplikationsregel für unabhängige Ereignisse liefert daher für die
Wahrscheinlichkeit P(T+) eines positiven Testausgangs: P(T+) = P(T+|K+)P(K+)
+ P(T+|K-)P(K-). In dieser Formel sind P(T+|K+) die (bekannte) Sensitivität, P(K+)
die (bekannte) Wahrscheinlichkeit einer Erkrankung in der Population, P(T+|K-)
ist die Gegenwahrscheinlichkeit zur (bekannten) Spezifität P(T-|K-) und P(K-) die
Gegenwahrscheinlichkeit zu P(K+).
Die gesuchte Wahrscheinlichkeit P(K+|T+) ergibt sich nun aus der
Definitionsgleichung der bedingten Wahrscheinlichkeit P(K+|T+) = P(K+ und
T+)/P(T+). In dieser Formel haben wir die Nennerwahrscheinlichkeit P(T+) bereits
bestimmt und ebenso die Zählerwahrscheinlichkeit P(K+ und T+) =
P(T+|K+)P(K+).
W. Timischl: Statistik, Wahrscheinlichkeiten_14_Text17.02.14