Bedingte Wahrscheinlichkeit Beispiel zur bedingten

Werbung
‹
‹
‹
‹
Das Konzept bedingter Wahrscheinlichkeit erlaubt zu
untersuchen, inwieweit sich die Wahrscheinlichkeiten für
das Eintreten von Ereignissen durch das Eintreten anderer
Ereignisse ändern.
Entwicklung anhand eines empirischen Beispiels mit 2
Merkmalen und einer sog. 4-Feldertafel
Merkmal: Gesundheitszustand mit den Ausprägungen
p g g
krank (D+) oder gesund(D-)
Merkmal: Testergebnis mit den Ausprägungen Test positiv
oder negativ (T+ bzw. T-)
Von Interesse ist hier nicht nur die Wahrscheinlichkeit
krank zu sein: P(D+) sondern insbesondere die
Wahrscheinlichkeit krank zu sein, wenn ein positiver Test
vorliegt: P(D+|T+)
Statistik für SoziologInnen
1
Bedingte Wahrscheinlichkeiten
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
Randverteilung
a d e te u g ((marginale
a g a e Verteilung):
e te u g)
P(D+) = 0,318
P(D-) = 0,682
P(T+) = 0,289
P (T-) = 0,711
3
Bedingte Wahrscheinlichkeiten
P(D-|T-) = 0,578 / 0,711= 0,813
P(D+|T-) = 0,133 / 0,711= 0,187
D+
DTotal
T 0,64
T+
0 64 0
0,36
36 0,289
0 289
T- 0,187 0,813 0,711
Total 0,318 0,682 1,000
5
Bedingte Wahrscheinlichkeiten
Bedingte Verteilungen
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
Wir interessieren
te ess e e u
uns
s nun
u für
ü d
die
e Krankheitsa
e ts
wahrscheinlichkeit gegeben der Test ist positiv
Bedingte Verteilung:
Statistik für SoziologInnen
4
Bedingte Wahrscheinlichkeiten
Interpretation von bedingten Wahrscheinlichkeiten
Summary
Offensichtlich verändert die Kenntnis des Testergebnisses
meine Krankheitswahrscheinlichkeiten:
– P(D+) = 0,318
– Bei einem positiven Test gilt P(D+|T+) = 25/39 = 0,64
– Bei einem negativen Test gilt P(D+|T-) = 18/96 = 0,187
d.h. der Test ist informativ für das Merkmal
Gesundheitszustand
In obiger Tabelle sind die bedingten Verteilungen
des Gesundheitszustandes bei Kenntnis des
Testergebnisses ausgewiesen (Zeilenprozent).
Statistik für SoziologInnen
2
© Marcus Hudec
Bedingte Verteilung gegeben ein negativer Test
liegt vor:
© Marcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
Statistik für SoziologInnen
P(D+|T+) = 25/39 = 0,64
P(D+|T+) = P(D+ ∩ T+)/P(T+)= 0,185/0,289 = 0,64
P(D-|T+) = 14/39 = 1- P(D+|T+) = 0,36
P(D-|T+) = P(D- ∩ T+)/P(T+)= 0,104/0,289 = 0,36
Die Randverteilung eines Merkmals ergibt sich
jeweils durch Summation über alle Ausprägungen
des anderen Merkmals.
Statistik für SoziologInnen
Anhand eines Labortests (Digitalis-Konzentration
im Blut) kann das Vorliegen einer bestimmten
Herz-Krankheit diagnostiziert werden. 1975 wurde
dazu folgende Statistik veröffentlicht:
‹ T+...positiver Test
T- negativer Test
‹ D+...Krankheit
D- gesund
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
‹
© Marcus Hudec
© Marcus Hudec
Randverteilungen
Beispiel zur bedingten Wahrscheinlichkeit
© Marcus Hudec
‹
© Marcus Hudec
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
Lesehinweis:
P(A|B) … Wahrscheinlichkeit, dass ein Ereignis A eintritt, gegeben [oder
unter der Bedingung], das Ereignis B ist eingetreten
Statistik für SoziologInnen
6
Bedingte Wahrscheinlichkeiten
1
P(T+|D+) = 25 / 43 = 0,581
P(T+|D-) = 14 / 92 = 0,152
P(T- |D+) = 18 / 43 = 0,419
P(T- |D-) = 78 / 92 = 0,848
D+
DTotal
T+ 0,581
,
0,152
,
0,289
,
T- 0,419 0,848 0,711
Total 0,318 0,682 1,000
In obiger Tabelle sind die bedingten Verteilungen
des Testergebnisses bei Kenntnis des
Gesundheitszustandes ausgewiesen
(Spaltenprozent).
Statistik für SoziologInnen
7
9
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
11
Bedingte Wahrscheinlichkeiten
8
Bedingte Wahrscheinlichkeiten
Spezifität
Weiters wünschen wir uns, dass der Test
möglichst spezifisch ist, also nur auf das Vorliegen
der Krankheit anspricht. Jeder nicht Erkrankte, der
trotzdem positiv getestet wird, deutet auf einen
Mangel an Spezifität [~ P(T+|D-)] hin.
‹ Als Spezifität des Tests bezeichnen wir deshalb
den Anteil der korrekt negativ Getesteten unter
den nicht Erkrankten.
‹ Spezifität: P(T-|D-) …Wahrscheinlichkeit eines
negativen Testergebnisses gegeben der Proband
ist gesund
‹
Statistik für SoziologInnen
10
Bedingte Wahrscheinlichkeiten
Prädikativer Wert
Von Interesse sind in der Praxis folgende
bedingten Wahrscheinlichkeiten:
‹ Der positive prädikative Wert oder auch
Voraussagewert eines positiven Testergebnisses,
gibt die Wahrscheinlichkeit an, krank zu sein,
wenn ein positiver Test vorliegt
P(D+|T+)
‹ Der negative prädikative Wert oder auch
Voraussagewert eines negativen Testergebnisses,
gibt die Wahrscheinlichkeit an, gesund zu sein,
wenn ein negativer Test vorliegt
P(D-|T-)
‹
Statistik für SoziologInnen
12
© Marcus Hudec
Durch die beiden Kriterien Spezifität und
Sensitivität kann die statistische Qualität eines
diagnostischen Tests charakterisiert werden.
‹ Wünschenswert ist es, wenn ein Test in beiden
Kriterien möglich nahe an 100% herankommt.
‹ Leider
e de wird
dd
dieses
eses Idealziel
dea e in de
der Praxis
a s nicht
c t
erreicht. Sowohl Kranke als auch Gesunde
können positiv oder negativ getestet werden.
Deshalb kann aus dem Testergebnis nicht sicher,
sondern nur mit einer bestimmten Wahrscheinlichkeit auf das Vorliegen der Krankheit
geschlossen werden.
‹
© Marcus Hudec
Statistische Qualität
Statistik für SoziologInnen
© Marcus Hudec
Statistik für SoziologInnen
Spezifität des Tests
P(T-|D-) = 78/92=0,578 / 0,682= 0,848
© Marcus Hudec
Von einem guten diagnostischen Test wünschen
wir uns, dass er möglichst viele Kranke erkennt,
das heißt, diese durch ein positives Ergebnis
anzeigt. Der Anteil unter allen Kranken, die positiv
getestet werden, heißt Sensitivität, da er angibt,
wie sensibel der Test auf das Vorliegen der
Krankheit reagiert.
‹ Sensitivität: P(T+|D+) … Wahrscheinlichkeit eines
positiven Testergebnisses gegeben der Proband
ist krank
‹
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
P(D+)) = 0,318 P(T
P(D
P(T+)) = 0,289
‹ Sensitivität des Tests
P(T+|D+) = 25/43 = 0,185/0,318=0,581
‹
Bedingte Wahrscheinlichkeiten
Sensitivität
2 Maßzahlen für die Güte von diagnostischen Tests
© Marcus Hudec
Bedingte Verteilung gegeben D+ (Person ist krank)
liegt vor:
© Marcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten
2
Statistik für SoziologInnen
Statistik für SoziologInnen
Multiplikationssatz für zwei Ereignisse
A∩B
14
Bedingte Wahrscheinlichkeiten
Beispiele
‹
‹
B
Für einen männlichen Österreicher gelten folgende
Wahrscheinlichkeiten (Sterbetafel 1980/81):
A*
– Es ist evident, dass Berechnungen über Prämien von
Lebensversicherungen oder Rentensystemen auf bedingten
Wahrscheinlichkeiten basieren müssen!
B
Bedingte Wahrscheinlichkeiten
15
Wie groß ist die Wahrscheinlichkeit, dass ein Mann, der
den 70. Geburtstag feiert, auch den 80. Geburtstag feiern
k
kann
?
P(Alter ≥ 80| Alter ≥ 70) =
P(Alter ≥ 80 ∩ Alter ≥ 70) / P(Alter ≥ 70) =
P(Alter ≥ 80) / P(Alter ≥ 70) = 0,28 / 0,59 = 0,47
E*=B
Durch Summation der
gemeinsamen
Wahrscheinlichkeiten
Statistik für SoziologInnen
16
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
© Marcus Hudec
Berechnung von marginalen Wahrscheinlichkeiten
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
Statistik für SoziologInnen
– P(Alter ≥ 70) = 0,59
– P(Alter ≥ 80) = 0,28
P(A|B)~P(A*)
Durch die Bedingung
kommt es zu einer
Einschränkung des
Ereignisraumes
P(A ∩ B)
⇒ P(A ∩ B) = P(A| B) ⋅ P(B)
P(B)
© Marcus Hudec
E
A
P(A| B) =
© Marcus Hudec
Visualisierung des Prinzips der bedingten Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit eines Ereignisses
A unter der Bedingung, dass das Ereignis B
eingetreten ist (wobei P(B)>0 sein muss) ist wie
folgt definiert:
Bedingte Wahrscheinlichkeiten
13
© Marcus Hudec
Die Anwendung dieser Überlegungen gehen weit
über diagnostische Tests in der Medizin hinaus
‹ Beispiele:
‹ Alkomat …Test auf Alkoholisierung
‹ Lügendetektoren
‹ Automatische Erkennung von Falschgeld
‹ Tests auf Kreditwürdigkeit
‹ etc.
Letztlich bei jeder binären Entscheidung unter
Unsicherheit auf der Basis empirischer
Evidenz
‹
© Marcus Hudec
Allgemeine Fragestellung
Totale Wahrscheinlichkeit
A=(A ∩ B) ∪ (A ∩ B') ... Partition von A auf Basis von B
P(A) = P(A ∩ B) + P(A ∩ B') =
P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,185 + 0,104 = 0,289
T+
TTotal
D+
0,581
0,419
0,318
DTotal
0,152 0,289
0,848 0,711
0,682 1,000
P(A|B).P(B) + P(A|B').P(B')
Durch gewichtete
Summation der
bedingten
Wahrscheinlichkeiten
Beantwortung von Wahrscheinlichkeitsaussagen
unter Berücksichtigung verschiedener Szenarien
P(T+) = P(T+|D+).P(D+) + P(T+|D-).P(D-)=
= 0,581*0,318 + 0,152*0,682= 0,289
Statistik für SoziologInnen
17
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
18
Bedingte Wahrscheinlichkeiten
3
Statistik für SoziologInnen
P(D+ ∩ T+) = 12/100 = 0,12
P(D+ ∩ T+) = P(D+).P(T+|D+) =
In diesem Fall
P(D+).P(T+) = 0,2*0,6 = 0,12
Die gemeinsame Wahrscheinlichkeit ergibt sich im
Fall stochastischer Unabhängigkeit einfach aus
dem Produkt der marginalen
Wahrscheinlichkeiten.
Die gemeinsame absolute Häufigkeit ergibt sich im
Fall stochastischer Unabhängigkeit aus dem
Produkt der marginalen absoluten Häufigkeiten
durch die Gesamtzahl der Beobachtungen.
Statistik für SoziologInnen
Produkt A
Kauf
kein Kauf
‹
Zwei Ereignisse A und B heißen stochastisch
unabhängig, wenn gilt:
Korollar:
Wenn zwei Ereignisse unabhängig sind gilt:
P(A|B) = P(A) bzw. P(B|A) = P(B).
Statistik für SoziologInnen
Szenario: Keine Assoziation zwischen den Produkten
Produkt A
700
300
1000
70%
30%
100%
Kauf
kein Kauf
Gesamt
Produkt A
Produkt B
Kauf
kein Kauf
Statistik für SoziologInnen
23
600
400
1000
60%
40%
100%
Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten
22
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
© Marcus Hudec
Information über 2 Produkte (2 univariate Randverteilungen)
Stochastische Unabhängigkeit (Theorie)
‹
© Marcus Hudec
Beispiel: Assoziation von Produktkäufen
Bedingte Wahrscheinlichkeiten
20
P(A ∩ B) = P(A).P(B)
Bedingte Wahrscheinlichkeiten
21
Statistik für SoziologInnen
© Marcus Hudec
Man beachte im Beispiel:
Total
0 20
0,20
0,80
1,00
Dieser Test ist nicht informativ für das Merkmal Gesundheitszustand.
Die bedingten Wahrscheinlichkeiten und die marginale
Wahrscheinlichkeit sind gleich.
© Marcus Hudec
Stochastische Unabhängigkeit (Beispiel)
In diesem Beispiel verändert die Kenntnis des Testergebnisses meine
Krankheitswahrscheinlichkeiten nicht:
P(D+) = 0,60
Bei einem positiven Test gilt P(D+|T+) = 12/20 = 0,60
Bei einem negativen Test gilt P(D+|T-) = 48/80 = 0,60
D+ DT+ 0
0,60
60 0
0,40
40
T- 0,60 0,40
Total 0,60 0,40
Bedingte Wahrscheinlichkeiten
19
Stochastische Unabhängigkeit (Beispiel)
© Marcus Hudec
Wir verändern die Zahlen des vorigen Beispiels:
‹ T+...positiver Test
T- negativer Test
‹ D+...Krankheit
D- gesund
D+ DTotal
T+ 12
8
20
T48 32
80
Total 60 40 100
P(T+) = 0,2
P(D+)=0,6
P(D+|T+) = 12/20 = 0,6
P(D+|T-) = 48/80 =0,6
P(D+ ∩ T+) = 12/100 = 0,12 = P(D+).P(T+) = 0,2*0,6
STOCHASTISCHE UNABHÄNGIGKEIT
‹
© Marcus Hudec
Beispiel zur bedingten Wahrscheinlichkeit
700
300
1000
Produkt B
Kauf
kein Kauf
42%
18%
60%
28%
12%
40%
70%
30%
100%
Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten aus dem Produkt der Randverteilungen!
Statistik für SoziologInnen
24
Bedingte Wahrscheinlichkeiten
4
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
Produkt A
700
300
1000
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
60%
60%
60%
40%
40%
40%
Produkt A
100%
100%
100%
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
25
Produkt A
Kauf
kein Kauf
Gesamt
360
240
600
340
60
400
49%
20%
40%
150
250
400
700
300
1000
Produkt B
Kauf
kein Kauf
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
26
Szenario:
Maximale Positive Assoziation zwischen den Produkten
Produkt A
700
300
1000
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
51%
80%
60%
550
50
600
Produkt A
100%
100%
100%
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
600
0
600
100
300
400
© Marcus Hudec
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
© Marcus Hudec
Szenario: Negative Assoziation zwischen den Produkten
Produkt B
Kauf
kein Kauf
Kauf
79%
21%
100%
kein Kauf
17%
83%
100%
Gesamt
60%
40%
100%
P(Kauf von B|Kauf von A) = 550/700 = 0,79
P(Kauf von B|kein Kauf von A) = 50/300 = 0,17
P(Kauf von B|Kauf von A) = 420/700 = 0,60
P(Kauf von B|kein Kauf von A) = 180/300 = 0,60
Produkt A
Szenario: Positive Assoziation zwischen den Produkten
© Marcus Hudec
Produkt A
© Marcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
86%
0%
60%
14%
100%
40%
100%
100%
100%
P(Kauf von B|Kauf von A) = 360/700 = 0,51
P(Kauf von B|kein Kauf von A) = 240/300 = 0,80
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
27
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Statistik für SoziologInnen
Produkt B
Kauf
kein Kauf
300
300
600
400
0
400
700
300
1000
Produkt B
Kauf
kein Kauf
43%
100%
60%
57%
0%
40%
29
100%
100%
100%
Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten
28
© Marcus Hudec
Produkt A
© Marcus Hudec
Szenario:
Maximale Negative Assoziation zwischen den Produkten
Statistik für SoziologInnen
Maßzahlen der Assoziation
Wir betrachten 2 binäre Merkmale
‹ A (A1, A2) B (B1, B2)
‹
A1
A2
Summe
B1
a
c
a+c
B2
b
d
b+d
Summe
a+b
c+d
N
Kreuzproduktverhältnis (cross product ratio)
cpr = a*d/b*c
Wertebereich: 0 bis +∞
‹ Assoziationskoeffizient nach Yule:
Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis +1
‹
Statistik für SoziologInnen
30
Bedingte Wahrscheinlichkeiten
5
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
60%
60%
60%
Statistik für SoziologInnen
40%
40%
40%
Produkt A
Q=0
Bedingte Wahrscheinlichkeiten
49%
20%
40%
cpr=360*60/340*240=0,26
100%
100%
100%
57%
0%
40%
cpr=300*0/300*400= 0
Statistik für SoziologInnen
700
300
1000
Produkt B
Kauf
kein Kauf
43%
100%
60%
35
21%
83%
40%
100%
100%
100%
Bedingte Wahrscheinlichkeiten
Produkt B
Kauf
kein Kauf
600
0
600
100
300
400
100%
100%
100%
Statistik für SoziologInnen
700
300
1000
Produkt B
Kauf
kein Kauf
86%
0%
60%
14%
100%
40%
cpr=600*300/0*100=+ ∞
Q=-0,58
Bedingte Wahrscheinlichkeiten
400
0
400
79%
17%
60%
34
100%
100%
100%
Q=1
Bedingte Wahrscheinlichkeiten
Zur Interpretation der Cross Product Ratio
Das Verhältnis von Chance zu Gegenchance
nennt man „odds“
‹ odds:= p/(1-p)
‹ z.B. Würfelwurf
‹ odds(für einen 6er)=(1/6)/(5/6)=1/5
‹ Man spricht auch die Chancen stehen 1 zu 5
‹ Reziprokwert der Odds ist jene Auszahlung, die zu
einer fairen Wette führt
‹ Die Cross Product Ratio ist das Verhältnis der
odds (odds-ratio) für zwei unterschiedliche
Bedingungen
‹
© Marcus Hudec
Kauf
kein Kauf
Gesamt
Kauf
kein Kauf
Gesamt
© Marcus Hudec
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Produkt B
Kauf
kein Kauf
300
300
600
Produkt B
Kauf
kein Kauf
Szenario:
Maximale Positive Assoziation zwischen den Produkten
700
300
1000
Szenario:
Maximale Negative Assoziation zwischen den Produkten
Kauf
kein Kauf
Gesamt
700
300
1000
32
Produkt A
33
150
250
400
© Marcus Hudec
51%
80%
60%
550
50
600
Statistik für SoziologInnen
Produkt B
Kauf
kein Kauf
Statistik für SoziologInnen
Produkt A
© Marcus Hudec
Kauf
kein Kauf
Gesamt
340
60
400
Produkt B
Kauf
kein Kauf
cpr=250*550/150*50=18,33 Q=0,90
Produkt B
Kauf
kein Kauf
360
240
600
Kauf
kein Kauf
Gesamt
100%
100%
100%
Szenario: Negative Assoziation zwischen den Produkten
Produkt A
Kauf
kein Kauf
Gesamt
700
300
1000
31
Kauf
kein Kauf
Gesamt
Produkt A
Produkt B
Kauf
kein Kauf
cpr=420*120/280*180=1
Produkt A
Szenario: Positive Assoziation zwischen den Produkten
© Marcus Hudec
Produkt A
© Marcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
Q=-1
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
36
Bedingte Wahrscheinlichkeiten
6
D+
D-
Total
T+ 0,64 0,36 0,289
T- 0,187 0,813 0,711
Total 0,318 0,682 1,000
odds(D+|T+) = 0,64/0,36 = 1,78
odds(D+|T-)
( | ) = 0,187/0,813=
/
0,23
odds-ratio(D+) = 1,78/0,23 = 7,74
37
39
‹
Wie groß ist die Wahrscheinlichkeit, dass der Pilot zu einer
manuellen Navigation greifen muss?
A ... System
S stem A funktioniert
f nktioniert P(A) = 0
0,99
99
B ... System B funktioniert P(B) = 0,96
‹ P(A ist defekt) = P(A') = 1 - 0,99 = 0,01
‹ P(B ist defekt) = P(B') = 1- 0,96 = 0,04
‹ P(beide Systeme defekt) = P(A' ∩ B') =
= 0,01 x 0,04 = 0,0004
‹
‹
Statistik für SoziologInnen
41
Bedingte Wahrscheinlichkeiten
Beispiele
‹
Sind die Ereignisse Besitz eines Sparbuchs und Besitz von
Aktien stochastisch unabhängig ?
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
40
Bedingte Wahrscheinlichkeiten
Beispiel: Unabhängige Ereignisse
‹
‹
‹
Eine Expertenkommission besteht aus 3 Experten A, B, C.
Jeder Experte hat eine individuelle Irrtumswahrscheinlichkeit, die wie folgt gegeben ist:
– P(A irrt) = P(A) = 0,10
– P(B irrt) = P(B) = 0,15
– P(C
( irrt)) = P(C)
( ) = 0,12
Wie groß ist die Wahrscheinlichkeit, dass die Meinung der
Mehrheit korrekt ist, wenn die 3 Experten voneinander
unabhängig urteilen?
P(Mehrheit irrt nicht) = P(A' ∩ B' ∩ C) + P(A' ∩ B ∩ C') +
P(A ∩ B' ∩ C') + P(A' ∩ B' ∩ C') = 0,9 x 0,85 x 0,12 +
0,9 x 0,15 x 0,88 + 0,1 x 0,85 x 0,88 + 0,9 x 0,85 x 0,88 =
0,0918 + 0,1188 + 0,0748 + 0,6732 = 0,9586
Statistik für SoziologInnen
42
© Marcus Hudec
In einem Flugzeug gibt es 2 von einander
unabhängige automatische Navigationssysteme A
und B. Die Verfügbarkeit für das System A sei
0,99 und für B 0,96.
© Marcus Hudec
‹
38
Aus Schaden klug
P (A ∩ S) =?= P(A).P(S)
0,225 ≠ 0,75*0,25 ==> Die Ereignisse A und S
sind nicht unabhängig
‹ Wie groß ist die Wahrscheinlichkeit
Wahrscheinlichkeit, dass ein
Aktienbesitzer (bzw. ein Nicht-Aktienbesitzer) ein
Sparbuch hat?
‹ P(S|A) = P(S ∩ A) / P(A) = 0,225 / 0,25 = 0,9
‹ P(S|A') = P(S ∩ A') / P(A') = 0,525 / 0,75 = 0,7
‹ P(S ∩ A') = P(S) - P(S ∩ A) = 0,75-0,225=0,525
Bedingte Wahrscheinlichkeiten
Beispiel: Unabhängige Ereignisse
Pechvogel
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
0
10
10
kein Unfall
10
80
90
Summe
10
90
100
‹
P(A ∩ S) = P(A) + P(S) - P(A ∪ S) =
0,25 + 0,75 - 0,775 = 0,225
Statistik für SoziologInnen
Statistik für SoziologInnen
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
10
0
10
kein Unfall
0
90
90
Summe
10
90
100
© Marcus Hudec
‹
In einer Kleinstadt sind folgende Daten bekannt:
– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger ein Sparbuch besitzt = 0,75. P(S) = 0,75
– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger Aktien besitzt = 0,25.
P(A) = 0,25
– Wahrscheinlichkeit, dass ein zufällig
g ausgewählter
g
Bürger Vermögen hat (Besitz eines Sparbuchs oder von
Aktien) = 0,775.
P(A ∪ S) = 0,775
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig
ausgewählter Bürger sowohl Aktien als auch ein Sparbuch
besitzt?
© Marcus Hudec
‹
Uanbhängigkeit
Bedingte Wahrscheinlichkeiten
Beispiele
Aus der Statistik einer Versicherung ist bekannt,
dass 10% aller Personen in einem Jahr einen
Unfall erleiden.
‹ Diskutiere die Wahrscheinlichkeit, dass eine
Person in einem Intervall von 2 Jahren unfallfrei
ist!
‹
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
1
9
10
kein Unfall
9
81
90
Summe
10
90
100
Das relative Risiko einer Erkrankung ist bei
Vorliegen eines positiven Testbefundes 7,7 mal so
hoch wie bei Vorliegen eines negativen
Testbefundes. (25*78)/(14*18)=7,7
Statistik für SoziologInnen
Beispiel
© Marcus Hudec
© Marcus Hudec
Zur Interpretation der Cross Product Ratio
Bedingte Wahrscheinlichkeiten
7
– F...farbenblind
– M...männlich
Statistik für SoziologInnen
‹
Bedingte Wahrscheinlichkeiten
43
Daten zur Farbenblindheit
M
a priori
Wahrscheinlichkeiten
0,5
W
0,5
Wie verändern sich diese Wahrscheinlichkeiten,
gegeben die Person ist farbenblind ?
Statistik für SoziologInnen
‹
Wahrscheinlichkeitstabelle:
F
N Gesamt
25 475
500
M
W
5 495
500
W
30 970
1000
Gesamt
45
Bedingte Wahrscheinlichkeiten
P(B| A ) =
P(B ∩ A ) P( A ∩ B) P( A| B) ⋅ P(B)
=
=
P( A )
P( A )
P( A )
P(B| A ) =
P(B| A ) =
Statistik für SoziologInnen
P( A| B) ⋅ P(B)
P( A )
P( A| B) ⋅ P(B)
P( A| B) ⋅ P(B) + P( A| B' ) ⋅ P(B' )
47
0,025 0,475
M∩F M∩N
0 005 0,495
0,005
0 495
W∩F M∩N
0,030 0,970
F
N
0,500
M
0 500
0,500
W
1,000
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
46
Bedingte Wahrscheinlichkeiten
Beispiel: Theorem von Bayes
P(M|F) = P(F|M) x P(M) / P(F)
‹ P(F) = P(F|M) x P(M) + P(F|W) x P(W) =
= 0,05 x 0,5 + 0,01 x 0,5 = 0,03
Satz von der totalen Wahrscheinlichkeit
‹ P(M|F) = 0,05 x 0,5 / 0,03 = 5/6 = 0,833
‹ P(W|F) = 1 - P(M|F) = 1 - 5/6 = 1/6 = 0,167
‹ P(M|N) = P(N|M) x P(M) / P(N)
= 0,95 x 0,5 / 0,97 = 0,49
‹ P(W|N) = 1- P(M|N) = 0,51
‹ Man beachte den unterschiedlichen
Informationsgehalt von F/N in bezug auf M/W
‹
Statistik für SoziologInnen
48
© Marcus Hudec
© Marcus Hudec
Theorem von Bayes
N Gesamt
P(M|F) = P(M∩F)/P(F) = 25/30 = 0.025/0.03 = 5/6
P(W|F) = P(W∩F)/P(F) = 5/30 = 0.005/0.03 = 1/6
Daraus lassen sich folgende Wahrscheinlichkeiten
ableiten:
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
44
Beispiel: Bedingte Wahrscheinlichkeit
M
Gesamt
1
© Marcus Hudec
© Marcus Hudec
Fiktive Population von 1000 Personen:
F
‹
‹
Gesamt
Beispiel: Bedingte Wahrscheinlichkeit
‹
Beispiel: Theorem von Bayes
N...normalsichtig
W...weiblich
P(F) = P(F|M).P(M) + P(F|W).P(W)=
= 0,05*0,5 + 0,01*0,5=0,03
© Marcus Hudec
In einer Population mit gleichen Anteilen von
Männern und Frauen wurde festgestellt, dass 5%
der Männer und 1% der Frauen farbenblind sind.
‹ Wie groß ist die Wahrscheinlichkeit, dass eine
beliebige Person farbenblind ist?
‹ Notation:
‹
© Marcus Hudec
Beispiel: Totale Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
8
Zusammenfassung der Daten zur Farbenblindheit
a priori
Wahrscheinlichkeiten
Posterior
gegeben
Farbenblind
Posterior
gegeben
Normalsichtig
M
0,5
0,833
0,49
W
0,5
0,167
0,51
1
1
1
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
49
‹
Zusammenfassung der Daten
a priori
Posterior
Posterior
Wahrscheingegeben
gegeben
lichkeiten positiver Test negativer Test
D+
0,318
0,640
0,187
D-
0,682
0,360
0,848
1
1
1
Statistik für SoziologInnen
51
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
53
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
50
Bedingte Wahrscheinlichkeiten
Beispiel: Mammography
Die Daten stammen aus Kerlinowske et al. 1996,
JAMA „Likelihood Ratios for Modern Screening
Mammography -Risk of Breast Cancer Based on
Age and Mammographic Interpretation“
‹ Die Wahrscheinlichkeit, dass eine symptomfreie
Frau im Alter von 55 Jahren Brustkrebs hat
hat,
beträgt 0,6% (d.h. die Prävalenz = P(D+) = 0,006)
‹
Statistik für SoziologInnen
52
Bedingte Wahrscheinlichkeiten
Zentrale Frage
Eine 55-jährige Frau, ohne einschlägige Symptome, ist
dem Rat ihres Arztes gefolgt, im Rahmen der
Brustkrebsfrüherkennung jedes Jahr eine Mammografie
durchführen zu lassen. Bei einer solchen Untersuchung
erhält sie einen positiven Befund. Schockiert über das
Ergebnis, fragt sie ihren Arzt:
«Heißt
H ißt d
das, iich
hh
habe
b B
Brustkrebs?»
tk b ?
© Marcus Hudec
Wenn eine symptomfreie Frau im Alter von 55
Jahren Brustkrebs hat, dann beträgt die
Wahrscheinlichkeit, dass sie einen positiven
Mammografie-Befund P(T+) erhält, 94 Prozent.
‹ Sensitivität des Tests = 0,94
‹ Wenn eine dieser Frauen jedoch keinen
Brustkrebs (D-) hat, dann beträgt die
Wahrscheinlichkeit, dass sie dennoch einen
positiven Mammografie-Befund erhält nur 7
Prozent.
‹ Spezifität des Tests = 0,93
‹
© Marcus Hudec
Beispiel
P(D+|T+) = P(T+|D+) x P(D+) / P(T+)
‹ P(T+) = 39/135 = 0,289
‹ P(T+|D+) = 25/43 =0,581
‹ P(D+) = 43/135 = 0,318
‹ P(D
P(D+|T+)
|T ) = 0,581 x 0,318 / 0,289 = 0,64
Daten:
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
‹
© Marcus Hudec
© Marcus Hudec
Beispiel: Theorem von Bayes
Beispiel: Theorem von Bayes
© Marcus Hudec
‹
© Marcus Hudec
Beispiel: Theorem von Bayes
«Nein, das kann man noch nicht sicher sagen.»
«Wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich
Brustkrebs habe?»
Statistik für SoziologInnen
54
Bedingte Wahrscheinlichkeiten
9
Diagnostischer Test
P(T-|D-) Spezifität
P(T+|D+) Sensitivität
Posteriore Wahrscheinlichkeit einer Erkrankung
__,_%
55
Bedingte Wahrscheinlichkeiten
korrekte statistische Angabe
kann der Arzt der Patientin geben?
‹Prävalenz = P(D+) = 0,006
‹Sensitivität des Tests
P(T+|D+) = 0,94
‹Spezifität des Tests bzw. 1-Spez
P(T-|D-) = 0,93 bzw. P(T+|D-) = 0,07
‹P(D+|T+) = ???
Statistik für SoziologInnen
57
56
Bedingte Wahrscheinlichkeiten
Theorem von Bayes
posteriore
Wahrscheinlichkeit
Theorem von Bayes
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
58
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
Wahrscheinlichkeit
Wahrscheinlichkeit, dass die Patientin
mit einer positiven Mammographie
tatsächlich Brustkrebs hat, beträgt 7,5%
‹ In einer amerikanischen Studie lagen 95 von
100 befragten Ärzten in ihrer Schätzung
zwischen 70% und 80%.
59
Statistik für SoziologInnen
P (T + | D + ) ⋅ P ( D + )
P (T + )
P (T + ) = P (T + | D + ) ⋅ P ( D + ) + P (T + | D − ) ⋅ P ( D − )
Sens ⋅ Pr äv
P( D + | T +) =
Sens ⋅ Pr äv + (1 − Spez ) ⋅ (1 − Pr äv )
‹ Die
Statistik für SoziologInnen
P(D-|T-) = ???
P( D + | T +) =
© Marcus Hudec
P(T+) = P(T+|D+)*P(D+) + P(T+|D-)*P(D-)=
= 0,94*0,006 + 0,07*0,994 =0,07522
‹ P(D+|T+) = P(T+|D+)*P(D+)/P(T+)=
= 0,94*0,006/0,07522=0,07498
‹
Falls Test negativ ist
P(D+|T+) = ???
a priori
Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
Anwendung des Bayes Theorem
Falls Test positiv ist
© Marcus Hudec
‹Welche
© Marcus Hudec
Beispiel
Schema der Diagnostik
A priori Wahrscheinlichkeit einer
Erkrankung (Prävalenz)
Ihre Schätzung für die korrekte
Wahrscheinlichkeit, dass die
Patientin mit einer positiven
Mammographie tatsächlich
Brustkrebs hat, lautet
Statistik für SoziologInnen
© Marcus Hudec
© Marcus Hudec
Beispiel
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Gesund
(D-)
Summe
Test +
Test -
100.000
10.000
Summe
Statistik für SoziologInnen
60
Bedingte Wahrscheinlichkeiten
10
Brustkrebs
(D+)
Gesund
(D-)
Test +
Test +
Test -
Test -
Summe
Summe
600
99.400
100.000
0,6%
<===
Prävalenz
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
61
Test Summe
Brustkrebs
(D+)
Gesund
(D-)
564
6.958
<===
1 minus
Spezifität
600
Test 99.400
Statistik für SoziologInnen
100.000
Summe
Bedingte Wahrscheinlichkeiten
63
Test +
Test Summe
600
99.400
100.000
Bedingte Wahrscheinlichkeiten
62
Brustkrebs
(D+)
Gesund
(D-)
564
6.958
36
92.442
600
99.400
Statistik für SoziologInnen
Summe
93,0%
<=== Spezifität
100.000
Bedingte Wahrscheinlichkeiten
64
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Gesund
(D-)
Summe
Brustkrebs
(D+)
Gesund
(D-)
Summe
564
6.958
7.522
564
6.958
7.522
36
92.442
92.478
36
92.442
92.478
600
99.400
100.000
600
99.400
100.000
Test +
Test Summe
564/7.522=
Statistik für SoziologInnen
<=== Sensitivität
© Marcus Hudec
© Marcus Hudec
Formulierung in absoluten Zahlen
94,0%
Formulierung in absoluten Zahlen
Test +
36
Summe
564
Statistik für SoziologInnen
Summe
7,0%
Gesund
(D-)
© Marcus Hudec
© Marcus Hudec
Formulierung in absoluten Zahlen
Test +
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Summe
© Marcus Hudec
© Marcus Hudec
Formulierung in absoluten Zahlen
65
Bedingte Wahrscheinlichkeiten
Statistik für SoziologInnen
7,5%
66
Bedingte Wahrscheinlichkeiten
11
‹
‹
‹
‹
‹
Ein ELISA zum Test auf HIV-Antikörper besitze 99.99%
Sensitivität und 98% Spezifität.
Wir setzen diesen Test nun in zwei Situationen ein. In
Population A (“Normalpopulation”) liege die Prävalenz bei
0.01%.
Population B („Risiko-Population“) habe eine Prävalenz
von 5%.
In beiden Fällen wollen wir wissen, wie sicher wir bei
einem positiven Test sein können, dass der Proband
tatsächlich HIV-positiv ist.
67
P(+|L) = 0,88
P(-|W) = 0,86
P(-|L) = 0,12
P(+|W) = 0,14
P(W) = 0,99
P(L) = 0,01
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,99+0,88*0,01=0,1474
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,01/0,1474=0,0597
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,99/0,1474=0,9403
P(W|-) = P(-|W)*P(W)/P(-) = 0,86*0,99/0,853=0,998
P(L|-) = 1 - P(W|-) = 0,002
Statistik für SoziologInnen
68
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
b) Verändern der subjektiven Wahrscheinlichkeit
b1) P(W) = 0,50
P(L) = 0,50
- ... Test zeigt an Person lügt nicht
W ... Person spricht die Wahrheit
a) Routinetest bei Personalselektion
Bedingte Wahrscheinlichkeiten
Lügendetektoren und das Theorem von Bayes
Gastwirth(1978):
+ ...Test ergibt Person lügt
L ... Person lügt in Wirklichkeit
Ergebnis bei A: P(D+|T+) =0,5%
Ergebnis bei B: P(D+|T+) =72%
Statistik für SoziologInnen
Lügendetektoren und das Theorem von Bayes
© Marcus Hudec
‹
© Marcus Hudec
Prävalenzabhängigkeit von Tests
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,51
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,5/0,51 = 0,863
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,5/0,51 = 0,137
P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,5/0,49 = 0,122
P(W| ) 1
P(W|-)=
1- P(L|-)
P(L| ) = 0,878
0 878
b2) P(W) = 0,20
P(L) = 0,80
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,732
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,8/0,732 = 0,96
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,2/0,732 = 0,04
P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,8/0,268 = 0,36
P(W|-)= 1- P(L|-) = 0,64
Statistik für SoziologInnen
69
Bedingte Wahrscheinlichkeiten
12
Zugehörige Unterlagen
Herunterladen