Bedingte Wahrscheinlichkeit Beispiel zur bedingten

Werbung
‹
‹
‹
‹
‹
Das Konzept bedingter Wahrscheinlichkeit erlaubt zu
untersuchen, inwieweit sich die Wahrscheinlichkeiten für
das Eintreten von Ereignissen durch das Eintreten anderer
Ereignisse ändern.
Entwicklung anhand eines empirischen Beispiels mit 2
Merkmalen und einer sog. 4-Feldertafel
Merkmal: Gesundheitszustand mit den Ausprägungen
krank (D+) oder gesund(D-)
Merkmal: Testergebnis mit den Ausprägungen Test positiv
oder negativ (T+ bzw. T-)
Von Interesse ist hier nicht nur die Wahrscheinlichkeit
krank zu sein: P(D+) sondern insbesondere die
Wahrscheinlichkeit krank zu sein, wenn ein positiver Test
vorliegt: P(D+|T+)
Statistik für SoziologInnen
1
Bedingte Wahrscheinlichkeiten
eines Labortests (Digitalis-Konzentration
im Blut) kann das Vorliegen einer bestimmten
Herz-Krankheit diagnostiziert werden. 1975 wurde
dazu folgende Statistik veröffentlicht:
‹ T+...positiver Test
T- negativer Test
‹ D+...Krankheit
D- gesund
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
Statistik für SoziologInnen
2
© Marcus Hudec
Beispiel zur bedingten Wahrscheinlichkeit
‹ Anhand
© Marcus Hudec
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
1
© Marcus Hudec
Randverteilungen
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
Randverteilung (marginale Verteilung):
P(D+) = 0,318
P(D-) = 0,682
P(T+) = 0,289
P (T-) = 0,711
Die Randverteilung eines Merkmals ergibt sich
jeweils durch Summation über alle Ausprägungen
des anderen Merkmals.
Statistik für SoziologInnen
3
Bedingte Wahrscheinlichkeiten
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
Wir interessieren uns nun für die Krankheitswahrscheinlichkeit gegeben der Test ist positiv
Bedingte Verteilung:
© Marcus Hudec
Bedingte Verteilungen
P(D+|T+) = 25/39 = 0,64
P(D+|T+) = P(D+ ∩ T+)/P(T+)= 0,185/0,289 = 0,64
P(D-|T+) = 14/39 = 1- P(D+|T+) = 0,36
P(D-|T+) = P(D- ∩ T+)/P(T+)= 0,104/0,289 = 0,36
Statistik für SoziologInnen
4
Bedingte Wahrscheinlichkeiten
2
Bedingte Verteilung gegeben ein negativer Test
liegt vor:
© Marcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
P(D-|T-) = 0,578 / 0,711= 0,813
P(D+|T-) = 0,133 / 0,711= 0,187
D+
DTotal
T+ 0,64 0,36 0,289
T- 0,187 0,813 0,711
Total 0,318 0,682 1,000
In obiger Tabelle sind die bedingten Verteilungen
des Gesundheitszustandes bei Kenntnis des
Testergebnisses ausgewiesen (Zeilenprozent).
Statistik für SoziologInnen
5
Bedingte Wahrscheinlichkeiten
Summary
© Marcus Hudec
Interpretation von bedingten Wahrscheinlichkeiten
Offensichtlich verändert die Kenntnis des Testergebnisses
meine Krankheitswahrscheinlichkeiten:
– P(D+) = 0,318
– Bei einem positiven Test gilt P(D+|T+) = 25/39 = 0,64
– Bei einem negativen Test gilt P(D+|T-) = 18/96 = 0,187
d.h. der Test ist informativ für das Merkmal
Gesundheitszustand
Lesehinweis:
P(A|B) … Wahrscheinlichkeit, dass ein Ereignis A eintritt, gegeben [oder
unter der Bedingung], das Ereignis B ist eingetreten
Statistik für SoziologInnen
6
Bedingte Wahrscheinlichkeiten
3
Bedingte Verteilung gegeben D+ (Person ist krank)
liegt vor:
© Marcus Hudec
Berechnung von bedingten Wahrscheinlichkeiten
P(T+|D+) = 25 / 43 = 0,581
P(T+|D-) = 14 / 92 = 0,152
P(T- |D+) = 18 / 43 = 0,419
P(T- |D-) = 78 / 92 = 0,848
D+
DTotal
T+ 0,581 0,152 0,289
T- 0,419 0,848 0,711
Total 0,318 0,682 1,000
In obiger Tabelle sind die bedingten Verteilungen
des Testergebnisses bei Kenntnis des
Gesundheitszustandes ausgewiesen
(Spaltenprozent).
Statistik für SoziologInnen
7
Bedingte Wahrscheinlichkeiten
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
P(D+) = 0,318 P(T+) = 0,289
‹ Sensitivität des Tests
P(T+|D+) = 25/43 = 0,185/0,318=0,581
© Marcus Hudec
2 Maßzahlen für die Güte von diagnostischen Tests
‹ Spezifität
des Tests
P(T-|D-) = 78/92=0,578 / 0,682= 0,848
Statistik für SoziologInnen
8
Bedingte Wahrscheinlichkeiten
4
‹ Von
einem guten diagnostischen Test wünschen
wir uns, dass er möglichst viele Kranke erkennt,
das heißt, diese durch ein positives Ergebnis
anzeigt. Der Anteil unter allen Kranken, die positiv
getestet werden, heißt Sensitivität, da er angibt,
wie sensibel der Test auf das Vorliegen der
Krankheit reagiert.
‹ Sensitivität: P(T+|D+) … Wahrscheinlichkeit eines
positiven Testergebnisses gegeben der Proband
ist krank
Statistik für SoziologInnen
9
Bedingte Wahrscheinlichkeiten
wünschen wir uns, dass der Test
möglichst spezifisch ist, also nur auf das Vorliegen
der Krankheit anspricht. Jeder nicht Erkrankte, der
trotzdem positiv getestet wird, deutet auf einen
Mangel an Spezifität [~ P(T+|D-)] hin.
‹ Als Spezifität des Tests bezeichnen wir deshalb
den Anteil der korrekt negativ Getesteten unter
den nicht Erkrankten.
‹ Spezifität: P(T-|D-) …Wahrscheinlichkeit eines
negativen Testergebnisses gegeben der Proband
ist gesund
Statistik für SoziologInnen
10
© Marcus Hudec
Spezifität
‹ Weiters
© Marcus Hudec
Sensitivität
Bedingte Wahrscheinlichkeiten
5
‹ Durch
die beiden Kriterien Spezifität und
Sensitivität kann die statistische Qualität eines
diagnostischen Tests charakterisiert werden.
‹ Wünschenswert ist es, wenn ein Test in beiden
Kriterien möglich nahe an 100% herankommt.
‹ Leider wird dieses Idealziel in der Praxis nicht
erreicht. Sowohl Kranke als auch Gesunde
können positiv oder negativ getestet werden.
Deshalb kann aus dem Testergebnis nicht sicher,
sondern nur mit einer bestimmten Wahrscheinlichkeit auf das Vorliegen der Krankheit
geschlossen werden.
Statistik für SoziologInnen
11
Bedingte Wahrscheinlichkeiten
Interesse sind in der Praxis folgende
bedingten Wahrscheinlichkeiten:
‹ Der positive prädikative Wert oder auch
Voraussagewert eines positiven Testergebnisses,
gibt die Wahrscheinlichkeit an, krank zu sein,
wenn ein positiver Test vorliegt
P(D+|T+)
‹ Der negative prädikative Wert oder auch
Voraussagewert eines negativen Testergebnisses,
gibt die Wahrscheinlichkeit an, gesund zu sein,
wenn ein negativer Test vorliegt
P(D-|T-)
Statistik für SoziologInnen
12
© Marcus Hudec
Prädikativer Wert
‹ Von
© Marcus Hudec
Statistische Qualität
Bedingte Wahrscheinlichkeiten
6
‹ Die
Anwendung dieser Überlegungen gehen weit
über diagnostische Tests in der Medizin hinaus
‹ Beispiele:
‹ Alkomat …Test auf Alkoholisierung
‹ Lügendetektoren
‹ Automatische Erkennung von Falschgeld
‹ Tests auf Kreditwürdigkeit
‹ etc.
Letztlich bei jeder binären Entscheidung unter
Unsicherheit auf der Basis empirischer
Evidenz
Statistik für SoziologInnen
13
© Marcus Hudec
Allgemeine Fragestellung
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit eines Ereignisses
A unter der Bedingung, dass das Ereignis B
eingetreten ist (wobei P(B)>0 sein muss) ist wie
folgt definiert:
P(A| B) =
P(A ∩ B)
⇒ P(A ∩ B) = P(A| B) ⋅ P(B)
P(B)
Multiplikationssatz für zwei Ereignisse
Statistik für SoziologInnen
14
Bedingte Wahrscheinlichkeiten
7
E
A
A∩B
B
P(A|B)~P(A*)
Durch die Bedingung
kommt es zu einer
Einschränkung des
Ereignisraumes
Statistik für SoziologInnen
E*=B
A*
15
B
Bedingte Wahrscheinlichkeiten
Für einen männlichen Österreicher gelten folgende
Wahrscheinlichkeiten (Sterbetafel 1980/81):
© Marcus Hudec
Beispiele
‹
© Marcus Hudec
Visualisierung des Prinzips der bedingten Wahrscheinlichkeiten
– P(Alter ≥ 70) = 0,59
– P(Alter ≥ 80) = 0,28
‹
Wie groß ist die Wahrscheinlichkeit, dass ein Mann, der
den 70. Geburtstag feiert, auch den 80. Geburtstag feiern
kann ?
P(Alter ≥ 80| Alter ≥ 70) =
P(Alter ≥ 80 ∩ Alter ≥ 70) / P(Alter ≥ 70) =
P(Alter ≥ 80) / P(Alter ≥ 70) = 0,28 / 0,59 = 0,47
– Es ist evident, dass Berechnungen über Prämien von
Lebensversicherungen oder Rentensystemen auf bedingten
Wahrscheinlichkeiten basieren müssen!
Statistik für SoziologInnen
16
Bedingte Wahrscheinlichkeiten
8
D+
D- Total
T+ 0,185 0,104 0,289
T- 0,133 0,578 0,711
Total 0,318 0,682 1,000
© Marcus Hudec
Berechnung von marginalen Wahrscheinlichkeiten
Durch Summation der
gemeinsamen
Wahrscheinlichkeiten
P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,185 + 0,104 = 0,289
D+
0,581
0,419
0,318
T+
TTotal
DTotal
0,152 0,289
0,848 0,711
0,682 1,000
Durch gewichtete
Summation der
bedingten
Wahrscheinlichkeiten
P(T+) = P(T+|D+).P(D+) + P(T+|D-).P(D-)=
= 0,581*0,318 + 0,152*0,682= 0,289
Statistik für SoziologInnen
17
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
Totale Wahrscheinlichkeit
A=(A ∩ B) ∪ (A ∩ B') ... Partition von A auf Basis von B
P(A) = P(A ∩ B) + P(A ∩ B') =
P(A|B).P(B) + P(A|B').P(B')
Beantwortung von Wahrscheinlichkeitsaussagen
unter Berücksichtigung verschiedener Szenarien
Statistik für SoziologInnen
18
Bedingte Wahrscheinlichkeiten
9
‹ Wir
verändern die Zahlen des vorigen Beispiels:
‹ T+...positiver Test
T- negativer Test
‹ D+...Krankheit
D- gesund
D+ DTotal
T+ 12
8
20
T48 32
80
Total 60 40 100
P(T+) = 0,2
P(D+)=0,6
P(D+|T+) = 12/20 = 0,6
P(D+|T-) = 48/80 =0,6
P(D+ ∩ T+) = 12/100 = 0,12 = P(D+).P(T+) = 0,2*0,6
STOCHASTISCHE UNABHÄNGIGKEIT
Statistik für SoziologInnen
19
Bedingte Wahrscheinlichkeiten
In diesem Beispiel verändert die Kenntnis des Testergebnisses meine
Krankheitswahrscheinlichkeiten nicht:
P(D+) = 0,60
Bei einem positiven Test gilt P(D+|T+) = 12/20 = 0,60
Bei einem negativen Test gilt P(D+|T-) = 48/80 = 0,60
© Marcus Hudec
Stochastische Unabhängigkeit (Beispiel)
D+ DT+ 0,60 0,40
T- 0,60 0,40
Total 0,60 0,40
© Marcus Hudec
Beispiel zur bedingten Wahrscheinlichkeit
Total
0,20
0,80
1,00
Dieser Test ist nicht informativ für das Merkmal Gesundheitszustand.
Die bedingten Wahrscheinlichkeiten und die marginale
Wahrscheinlichkeit sind gleich.
Statistik für SoziologInnen
20
Bedingte Wahrscheinlichkeiten
10
© Marcus Hudec
Stochastische Unabhängigkeit (Beispiel)
Man beachte im Beispiel:
P(D+ ∩ T+) = 12/100 = 0,12
P(D+ ∩ T+) = P(D+).P(T+|D+) =
In diesem Fall
P(D+).P(T+) = 0,2*0,6 = 0,12
Die gemeinsame Wahrscheinlichkeit ergibt sich im
Fall stochastischer Unabhängigkeit aus dem
Produkt der marginalen Wahrscheinlichkeiten.
Die gemeinsame absolute Häufigkeit ergibt sich im
Fall stochastischer Unabhängigkeit aus dem
Produkt der marginalen absoluten Häufigkeiten
durch die Gesamtzahl der Beobachtungen.
Statistik für SoziologInnen
21
Bedingte Wahrscheinlichkeiten
‹ Zwei
Ereignisse A und B heißen stochastisch
unabhängig, wenn gilt:
© Marcus Hudec
Stochastische Unabhängigkeit (Theorie)
P(A ∩ B) = P(A).P(B)
‹ Korollar:
Wenn zwei Ereignisse unabhängig sind gilt:
P(A|B) = P(A) bzw. P(B|A) = P(B).
Statistik für SoziologInnen
22
Bedingte Wahrscheinlichkeiten
11
Information über 2 Produkte (2 univariate Randverteilungen)
Produkt A
Kauf
kein Kauf
Produkt B
Kauf
kein Kauf
Statistik für SoziologInnen
700
300
1000
70%
30%
100%
600
400
1000
60%
40%
100%
Bedingte Wahrscheinlichkeiten
23
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
© Marcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
Produkt A
© Marcus Hudec
Beispiel: Assoziation von Produktkäufen
700
300
1000
Produkt B
Kauf
kein Kauf
42%
18%
60%
28%
12%
40%
70%
30%
100%
Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten aus dem Produkt der Randverteilungen!
Statistik für SoziologInnen
24
Bedingte Wahrscheinlichkeiten
12
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
© Marcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
60%
60%
60%
40%
40%
40%
100%
100%
100%
P(Kauf von B|Kauf von A) = 420/700 = 0,60
P(Kauf von B|kein Kauf von A) = 180/300 = 0,60
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
25
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Produkt B
Kauf
kein Kauf
550
50
600
150
250
400
© Marcus Hudec
Szenario: Positive Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
Kauf
79%
21%
100%
kein Kauf
17%
83%
100%
Gesamt
60%
40%
100%
P(Kauf von B|Kauf von A) = 550/700 = 0,79
P(Kauf von B|kein Kauf von A) = 50/300 = 0,17
Statistik für SoziologInnen
26
Bedingte Wahrscheinlichkeiten
13
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
360
240
600
340
60
400
© Marcus Hudec
Szenario: Negative Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
51%
80%
60%
49%
20%
40%
100%
100%
100%
P(Kauf von B|Kauf von A) = 360/700 = 0,51
P(Kauf von B|kein Kauf von A) = 240/300 = 0,80
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
27
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Statistik für SoziologInnen
Produkt B
Kauf
kein Kauf
600
0
600
100
300
400
© Marcus Hudec
Szenario:
Maximale Positive Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
86%
0%
60%
14%
100%
40%
28
100%
100%
100%
Bedingte Wahrscheinlichkeiten
14
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
300
300
600
400
0
400
700
300
1000
Produkt B
Kauf
kein Kauf
43%
100%
60%
Statistik für SoziologInnen
57%
0%
40%
100%
100%
100%
Bedingte Wahrscheinlichkeiten
29
© Marcus Hudec
Maßzahlen der Assoziation
‹ Wir
betrachten 2 binäre Merkmale
‹ A (A1, A2) B (B1, B2)
A1
A2
Summe
B1
a
c
a+c
© Marcus Hudec
Szenario:
Maximale Negative Assoziation zwischen den Produkten
B2
b
d
b+d
Summe
a+b
c+d
N
‹ Kreuzproduktverhältnis
(cross product ratio)
cpr = a*d/b*c
Wertebereich: 0 bis +∞
‹ Assoziationskoeffizient nach Yule:
Q=(cpr-1)/(cpr+1)
Wertebereich: -1 bis +1
Statistik für SoziologInnen
30
Bedingte Wahrscheinlichkeiten
15
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf Gesamt
420
180
600
280
120
400
700
300
1000
Produkt B
Kauf
kein Kauf
60%
60%
60%
40%
40%
40%
cpr=420*120/280*180=1
Statistik für SoziologInnen
100%
100%
100%
Q=0
Bedingte Wahrscheinlichkeiten
31
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
550
50
600
150
250
400
© Marcus Hudec
Szenario: Positive Assoziation zwischen den Produkten
Produkt A
© Marcus Hudec
Szenario: Keine Assoziation zwischen den Produkten
700
300
1000
Produkt B
Kauf
kein Kauf
79%
17%
60%
21%
83%
40%
100%
100%
100%
cpr=250*550/150*50=18,33 Q=0,90
Statistik für SoziologInnen
32
Bedingte Wahrscheinlichkeiten
16
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
360
240
600
340
60
400
700
300
1000
Produkt B
Kauf
kein Kauf
51%
80%
60%
49%
20%
40%
cpr=360*60/340*240=0,26
Statistik für SoziologInnen
100%
100%
100%
Q=-0,58
Bedingte Wahrscheinlichkeiten
33
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
600
0
600
100
300
400
700
300
1000
Produkt B
Kauf
kein Kauf
86%
0%
60%
14%
100%
40%
cpr=600*300/0*100=+ ∞
Statistik für SoziologInnen
© Marcus Hudec
Szenario:
Maximale Positive Assoziation zwischen den Produkten
Produkt A
© Marcus Hudec
Szenario: Negative Assoziation zwischen den Produkten
34
100%
100%
100%
Q=1
Bedingte Wahrscheinlichkeiten
17
Produkt A
Kauf
kein Kauf
Gesamt
Produkt A
Kauf
kein Kauf
Gesamt
Produkt B
Kauf
kein Kauf
300
300
600
400
0
400
700
300
1000
Produkt B
Kauf
kein Kauf
43%
100%
60%
57%
0%
40%
cpr=300*0/300*400= 0
Statistik für SoziologInnen
35
100%
100%
100%
Q=-1
Bedingte Wahrscheinlichkeiten
‹ Das
Verhältnis von Chance zu Gegenchance
nennt man „odds“
‹ odds:= p/(1-p)
‹ z.B. Würfelwurf
‹ odds(für einen 6er)=(1/6)/(5/6)=1/5
‹ Man spricht auch die Chancen stehen 1 zu 5
‹ Reziprokwert der Odds ist jene Auszahlung, die zu
einer fairen Wette führt
‹ Die Cross Product Ratio ist das Verhältnis der
odds (odds-ratio) für zwei unterschiedliche
Bedingungen
36
© Marcus Hudec
Zur Interpretation der Cross Product Ratio
Statistik für SoziologInnen
© Marcus Hudec
Szenario:
Maximale Negative Assoziation zwischen den Produkten
Bedingte Wahrscheinlichkeiten
18
© Marcus Hudec
Zur Interpretation der Cross Product Ratio
D+
D-
Total
T+ 0,64 0,36 0,289
T- 0,187 0,813 0,711
Total 0,318 0,682 1,000
odds(D+|T+) = 0,64/0,36 = 1,78
odds(D+|T-) = 0,187/0,813= 0,23
odds-ratio(D+) = 1,78/0,23 = 7,74
Das relative Risiko einer Erkrankung ist bei
Vorliegen eines positiven Testbefundes 7,7 mal so
hoch wie bei Vorliegen eines negativen
Testbefundes.
Statistik für SoziologInnen
37
Bedingte Wahrscheinlichkeiten
‹ Aus
der Statistik einer Versicherung ist bekannt,
dass 10% aller Personen in einem Jahr einen
Unfall erleiden.
‹ Diskutiere die Wahrscheinlichkeit, dass eine
Person in einem Intervall von 2 Jahren unfallfrei
ist!
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
1
9
10
kein Unfall
9
81
90
Summe
10
90
100
Uanbhängigkeit
Statistik für SoziologInnen
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
10
0
10
kein Unfall
0
90
90
Summe
10
90
100
Pechvogel
38
© Marcus Hudec
Beispiel
Jahr2
Unfall kein Unfall Summe
Jahr1
Unfall
0
10
10
kein Unfall
10
80
90
Summe
10
90
100
Aus Schaden klug
Bedingte Wahrscheinlichkeiten
19
‹ In
einer Population mit gleichen Anteilen von
Männern und Frauen wurde festgestellt, dass 5%
der Männer und 1% der Frauen farbenblind sind.
‹ Wie groß ist die Wahrscheinlichkeit bei zufälliger
Auswahl einer farbenblinden Person, einen Mann
bzw. eine Frau zu selektieren?
‹ Notation:
– F...farbenblind
– M...männlich
N...normalsichtig
W...weiblich
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
39
Population von 1000 Personen:
F
N Gesamt
M
25 475
500
W
5 495
500
30 970
1000
Gesamt
© Marcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
‹ Fiktive
© Marcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
‹ Daraus
lassen sich folgende Wahrscheinlichkeiten
ableiten:
Statistik für SoziologInnen
40
Bedingte Wahrscheinlichkeiten
20
© Marcus Hudec
Beispiel: Bedingte Wahrscheinlichkeit
‹ Wahrscheinlichkeitstabelle:
F
M
W
Gesamt
N Gesamt
0,025 0,475
M∩F M∩N
0,005 0,495
W∩F M∩N
0,030 0,970
F
N
0,500
M
0,500
W
1,000
P(M|F) = P(M∩F)/P(F) = 25/30 = 0.025/0.03 = 5/6
P(W|F) = P(W∩F)/P(F) = 5/30 = 0.005/0.03 = 1/6
Statistik für SoziologInnen
41
Bedingte Wahrscheinlichkeiten
‹
‹
In einer Kleinstadt sind folgende Daten bekannt:
– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger ein Sparbuch besitzt = 0,75. P(S) = 0,75
– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger Aktien besitzt = 0,25.
P(A) = 0,25
– Wahrscheinlichkeit, dass ein zufällig ausgewählter
Bürger Vermögen hat (Besitz eines Sparbuchs oder von
Aktien) = 0,775.
P(A ∪ S) = 0,775
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig
ausgewählter Bürger sowohl Aktien als auch ein Sparbuch
besitzt?
© Marcus Hudec
Beispiele
P(A ∩ S) = P(A) + P(S) - P(A ∪ S) =
0,25 + 0,75 - 0,775 = 0,225
Statistik für SoziologInnen
42
Bedingte Wahrscheinlichkeiten
21
‹
Sind die Ereignisse Besitz eines Sparbuchs und Besitz von
Aktien stochastisch unabhängig ?
© Marcus Hudec
Beispiele
(A ∩ S) =?= P(A).P(S)
0,225 ≠ 0,75*0,25 ==> Die Ereignisse A und S
sind nicht unabhängig
‹ Wie groß ist die Wahrscheinlichkeit, dass ein
Aktienbesitzer (bzw. ein Nicht-Aktienbesitzer) ein
Sparbuch hat?
‹ P(S|A) = P(S ∩ A) / P(A) = 0,225 / 0,25 = 0,9
‹ P(S|A') = P(S ∩ A') / P(A') = 0,525 / 0,75 = 0,7
‹ P(S ∩ A') = P(S) - P(S ∩ A) = 0,75-0,225=0,525
‹P
Statistik für SoziologInnen
43
Bedingte Wahrscheinlichkeiten
‹ In
einem Flugzeug gibt es 2 von einander
unabhängige automatische Navigationssysteme A
und B. Die Verfügbarkeit für das System A sei
0,99 und für B 0,96.
‹
© Marcus Hudec
Beispiel: Unabhängige Ereignisse
Wie groß ist die Wahrscheinlichkeit, dass der Pilot zu einer
manuellen Navigation greifen muss?
‹A
... System A funktioniert P(A) = 0,99
‹ B ... System B funktioniert P(B) = 0,96
‹ P(A ist defekt) = P(A') = 1 - 0,99 = 0,01
‹ P(B ist defekt) = P(B') = 1- 0,96 = 0,04
‹ P(beide Systeme defekt) = P(A' ∩ B') =
= 0,01 x 0,04 = 0,0004
Statistik für SoziologInnen
44
Bedingte Wahrscheinlichkeiten
22
‹
‹
‹
Eine Expertenkommission besteht aus 3 Experten A, B, C.
Jeder Experte hat eine individuelle Irrtumswahrscheinlichkeit, die wie folgt gegeben ist:
– P(A irrt) = P(A) = 0,10
– P(B irrt) = P(B) = 0,15
– P(C irrt) = P(C) = 0,12
Wie groß ist die Wahrscheinlichkeit, dass die Meinung der
Mehrheit korrekt ist, wenn die 3 Experten voneinander
unabhängig urteilen?
P(Mehrheit irrt nicht) = P(A' ∩ B' ∩ C) + P(A' ∩ B ∩ C') +
P(A ∩ B' ∩ C') + P(A' ∩ B' ∩ C') = 0,9 x 0,85 x 0,12 +
0,9 x 0,15 x 0,88 + 0,1 x 0,85 x 0,88 + 0,9 x 0,85 x 0,88 =
0,0918 + 0,1188 + 0,0748 + 0,6732 = 0,9586
Statistik für SoziologInnen
45
Bedingte Wahrscheinlichkeiten
russischen Roulette mit einem 6-Schuss
Revolver befindet sich nur eine scharfe Patrone in
der Trommel.
‹ Die Wahrscheinlichkeit, dass sich nach zufälliger
Wahl der Trommelposition ein Schuss löst ist
demnach 1/6.
‹ Wie groß ist die Wahrscheinlichkeit, dass ein
Hasardeur 2 unabhängige Versuche überlebt?
‹ Wie groß ist die Wahrscheinlichkeit, dass ein
Hasardeur 6 (n) Versuche überlebt?
Statistik für SoziologInnen
46
© Marcus Hudec
Russisches Roulette
‹ Beim
© Marcus Hudec
Beispiel: Unabhängige Ereignisse
Bedingte Wahrscheinlichkeiten
23
‹X
ein Schuss fällt
P(X)=1/6
‹ X‘ kein Schuss fällt P(X‘)=5/6
‹ Kein Schuss bei 2 Versuchen:
5/6*5/6=0,69 ... Hasardeur(2) überlebt
‹ Zumindest ein Schuss bei 2 Versuchen:
1- 5/6*5/6=0,31... Hasardeur(2) stirbt
‹ Kein Schuss bei 6 Versuchen:
(5/6)^6=0,33
‹ Zumindest ein Schuss bei 6 Versuchen:
1- (5/6)^6=0,67
‹ Allgemeine Überlebenschance: (5/6)^n
Statistik für SoziologInnen
47
Bedingte Wahrscheinlichkeiten
einer Population mit gleichen Anteilen von
Männern und Frauen wurde festgestellt, dass 5%
der Männer und 1% der Frauen farbenblind sind.
‹ Wie groß ist die Wahrscheinlichkeit, dass eine
beliebige Person farbenblind ist?
‹ Notation:
– F...farbenblind
– M...männlich
© Marcus Hudec
Beispiel: Totale Wahrscheinlichkeit
‹ In
© Marcus Hudec
Russisches Roulette
N...normalsichtig
W...weiblich
P(F) = P(F|M).P(M) + P(F|W).P(W)=
= 0,05*0,5 + 0,01*0,5=0,03
Statistik für SoziologInnen
48
Bedingte Wahrscheinlichkeiten
24
© Marcus Hudec
Beispiel: Theorem von Bayes
‹ Daten
zur Farbenblindheit
M
a priori
Wahrscheinlichkeiten
0,5
W
0,5
1
Gesamt
‹ Wie
verändern sich diese Wahrscheinlichkeiten,
gegeben die Person ist farbenblind ?
Statistik für SoziologInnen
49
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
Theorem von Bayes
P(B| A ) =
P(B ∩ A ) P( A ∩ B) P( A| B) ⋅ P(B)
=
=
P( A )
P( A )
P( A )
P(B| A ) =
P(B| A ) =
Statistik für SoziologInnen
P( A| B) ⋅ P(B)
P( A )
P( A| B) ⋅ P(B)
P( A| B) ⋅ P(B) + P( A| B' ) ⋅ P(B' )
50
Bedingte Wahrscheinlichkeiten
25
© Marcus Hudec
Beispiel: Theorem von Bayes
‹ P(M|F)
= P(F|M) x P(M) / P(F)
‹ P(F) = P(F|M) x P(M) + P(F|W) x P(W) =
= 0,05 x 0,5 + 0,01 x 0,5 = 0,03
Satz von der totalen Wahrscheinlichkeit
‹ P(M|F) = 0,05 x 0,5 / 0,03 = 5/6 = 0,833
‹ P(W|F) = 1 - P(M|F) = 1 - 5/6 = 1/6 = 0,167
‹ P(M|N) = P(N|M) x P(M) / P(N)
= 0,95 x 0,5 / 0,97 = 0,49
‹ P(W|N) = 1- P(M|N) = 0,51
‹ Man beachte den unterschiedlichen
Informationsgehalt von F/N in bezug auf M/W
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
51
‹ Zusammenfassung
der Daten zur Farbenblindheit
a priori
Wahrscheinlichkeiten
Posterior
gegeben
Farbenblind
Posterior
gegeben
Normalsichtig
M
0,5
0,833
0,49
W
0,5
0,167
0,51
1
1
1
Statistik für SoziologInnen
52
© Marcus Hudec
Beispiel: Theorem von Bayes
Bedingte Wahrscheinlichkeiten
26
© Marcus Hudec
Beispiel: Theorem von Bayes
‹ P(D+|T+)
= P(T+|D+) x P(D+) / P(T+)
‹ P(T+) = 39/135 = 0,289
‹ P(T+|D+) = 25/43 =0,581
‹ P(D+) = 43/135 = 0,318
‹ P(D+|T+) = 0,581 x 0,318 / 0,289 = 0,64
Daten:
D+ DTotal
T+ 25 14
39
T18 78
96
Total 43 92
135
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
53
© Marcus Hudec
Beispiel: Theorem von Bayes
‹ Zusammenfassung
der Daten
a priori
Posterior
Posterior
Wahrscheingegeben
gegeben
lichkeiten positiver Test negativer Test
D+
0,318
0,640
0,187
D-
0,682
0,360
0,848
1
1
1
Statistik für SoziologInnen
54
Bedingte Wahrscheinlichkeiten
27
‹ Die
Daten stammen aus Kerlinowske et al. 1996,
JAMA „Likelihood Ratios for Modern Screening
Mammography -Risk of Breast Cancer Based on
Age and Mammographic Interpretation“
‹ Die Wahrscheinlichkeit, dass eine symptomfreie
Frau im Alter von 55 Jahren Brustkrebs hat,
beträgt 0,6% (d.h. die Prävalenz = P(D+) = 0,006)
Statistik für SoziologInnen
55
Bedingte Wahrscheinlichkeiten
eine symptomfreie Frau im Alter von 55
Jahren Brustkrebs hat, dann beträgt die
Wahrscheinlichkeit, dass sie einen positiven
Mammografie-Befund P(T+) erhält, 94 Prozent.
‹ Sensitivität des Tests = 0,94
‹ Wenn eine dieser Frauen jedoch keinen
Brustkrebs (D-) hat, dann beträgt die
Wahrscheinlichkeit, dass sie dennoch einen
positiven Mammografie-Befund erhält nur 7
Prozent.
‹ Spezifität des Tests = 0,93
Statistik für SoziologInnen
56
© Marcus Hudec
Beispiel
‹ Wenn
© Marcus Hudec
Beispiel: Mammography
Bedingte Wahrscheinlichkeiten
28
Eine 55-jährige Frau, ohne einschlägige Symptome, ist
dem Rat ihres Arztes gefolgt, im Rahmen der
Brustkrebsfrüherkennung jedes Jahr eine Mammografie
durchführen zu lassen. Bei einer solchen Untersuchung
erhält sie einen positiven Befund. Schockiert über das
Ergebnis, fragt sie ihren Arzt:
«Heißt das, ich habe Brustkrebs?»
© Marcus Hudec
Zentrale Frage
«Nein, das kann man noch nicht sicher sagen.»
«Wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich
Brustkrebs habe?»
Statistik für SoziologInnen
57
Bedingte Wahrscheinlichkeiten
© Marcus Hudec
Beispiel
Ihre Schätzung für die korrekte
Wahrscheinlichkeit, dass die
Patientin mit einer positiven
Mammographie tatsächlich
Brustkrebs hat, lautet
__,_%
Statistik für SoziologInnen
58
Bedingte Wahrscheinlichkeiten
29
© Marcus Hudec
Schema der Diagnostik
A priori Wahrscheinlichkeit einer
Erkrankung (Prävalenz)
Diagnostischer Test
P(T-|D-) Spezifität
P(T+|D+) Sensitivität
Posteriore Wahrscheinlichkeit einer Erkrankung
Falls Test positiv ist
Falls Test negativ ist
P(D+|T+) = ???
P(D-|T-) = ???
Statistik für SoziologInnen
59
Bedingte Wahrscheinlichkeiten
‹Welche
korrekte statistische Angabe
kann der Arzt der Patientin geben?
‹Prävalenz = P(D+) = 0,006
‹Sensitivität des Tests
P(T+|D+) = 0,94
‹Spezifität des Tests bzw. 1-Spez
P(T-|D-) = 0,93 bzw. P(T+|D-) = 0,07
‹P(D+|T+) = ???
Statistik für SoziologInnen
60
© Marcus Hudec
Beispiel
Bedingte Wahrscheinlichkeiten
30
© Marcus Hudec
Theorem von Bayes
a priori
Wahrscheinlichkeit
Theorem von Bayes
posteriore
Wahrscheinlichkeit
P (T + | D + ) ⋅ P ( D + )
P (T + )
P (T + ) = P (T + | D + ) ⋅ P ( D + ) + P (T + | D − ) ⋅ P ( D − )
P( D + | T +) =
P( D + | T +) =
Statistik für SoziologInnen
Sens ⋅ Pr äv
Sens ⋅ Pr äv + (1 − Spez ) ⋅ (1 − Pr äv )
61
Bedingte Wahrscheinlichkeiten
‹ P(T+)
= P(T+|D+)*P(D+) + P(T+|D-)*P(D-)=
= 0,94*0,006 + 0,07*0,994 =0,07522
‹ P(D+|T+) = P(T+|D+)*P(D+)/P(T+)=
= 0,94*0,006/0,07522=0,07498
© Marcus Hudec
Anwendung des Bayes Theorem
‹ Die
Wahrscheinlichkeit, dass die Patientin
mit einer positiven Mammographie
tatsächlich Brustkrebs hat, beträgt 7,5%
‹ In einer amerikanischen Studie lagen 95 von
100 befragten Ärzten in ihrer Schätzung
zwischen 70% und 80%.
Statistik für SoziologInnen
62
Bedingte Wahrscheinlichkeiten
31
© Marcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Gesund
(D-)
Summe
Test +
Test -
100.000
10.000
Summe
Statistik für SoziologInnen
Bedingte Wahrscheinlichkeiten
63
© Marcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Gesund
(D-)
Summe
600
99.400
100.000
0,6%
<===
Prävalenz
Test +
Test Summe
Statistik für SoziologInnen
64
Bedingte Wahrscheinlichkeiten
32
© Marcus Hudec
Formulierung in absoluten Zahlen
Brustkrebs
(D+)
Test +
Gesund
(D-)
Summe
564
94,0%
<=== Sensitivität
Test Summe
600
99.400
Statistik für SoziologInnen
100.000
Bedingte Wahrscheinlichkeiten
65
© Marcus Hudec
Formulierung in absoluten Zahlen
Test +
Test Summe
Brustkrebs
(D+)
Gesund
(D-)
564
6.958
Summe
7,0%
<===
1 minus
Spezifität
36
600
Statistik für SoziologInnen
99.400
100.000
66
Bedingte Wahrscheinlichkeiten
33
© Marcus Hudec
Formulierung in absoluten Zahlen
Test +
Test Summe
Brustkrebs
(D+)
Gesund
(D-)
564
6.958
36
92.442
600
99.400
Statistik für SoziologInnen
Summe
93,0%
<=== Spezifität
100.000
Bedingte Wahrscheinlichkeiten
67
© Marcus Hudec
Formulierung in absoluten Zahlen
Test +
Test Summe
Statistik für SoziologInnen
Brustkrebs
(D+)
Gesund
(D-)
Summe
564
6.958
7.522
36
92.442
92.478
600
99.400
100.000
68
Bedingte Wahrscheinlichkeiten
34
© Marcus Hudec
Formulierung in absoluten Zahlen
Test +
Test Summe
Brustkrebs
(D+)
Gesund
(D-)
Summe
564
6.958
7.522
36
92.442
92.478
600
99.400
100.000
564/7.522=
Statistik für SoziologInnen
7,5%
69
Bedingte Wahrscheinlichkeiten
‹
‹
‹
‹
‹
‹
Ein ELISA zum Test auf HIV-Antikörper besitze 99.99%
Sensitivität und 98% Spezifität.
Wir setzen diesen Test nun in zwei Situationen ein. In
Population A (“Normalpopulation”) liege die Prävalenz bei
0.01%.
Population B („Risiko-Population“) habe eine Prävalenz
von 5%.
In beiden Fällen wollen wir wissen, wie sicher wir bei
einem positiven Test sein können, dass der Proband
tatsächlich HIV-positiv ist.
© Marcus Hudec
Prävalenzabhängigkeit von Tests
Ergebnis bei A: P(D+|T+) =0,5%
Ergebnis bei B: P(D+|T+) =72%
Statistik für SoziologInnen
70
Bedingte Wahrscheinlichkeiten
35
Gastwirth(1978):
+ ...Test ergibt Person lügt
L ... Person lügt in Wirklichkeit
P(+|L) = 0,88
P(-|W) = 0,86
© Marcus Hudec
Lügendedektoren und das Theorem von Bayes
- ... Test zeigt an Person lügt nicht
W ... Person spricht die Wahrheit
P(-|L) = 0,12
P(+|W) = 0,14
a) Routinetest bei Personalselektion
P(W) = 0,99
P(L) = 0,01
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,99+0,88*0,01=0,1474
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,01/0,1474=0,0597
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,99/0,1474=0,9403
P(W|-) = P(-|W)*P(W)/P(-) = 0,86*0,99/0,853=0,998
P(L|-) = 1 - P(W|-) = 0,002
Statistik für SoziologInnen
71
Bedingte Wahrscheinlichkeiten
b) Verändern der subjektiven Wahrscheinlichkeit
b1) P(W) = 0,50
P(L) = 0,50
© Marcus Hudec
Lügendedektoren und das Theorem von Bayes
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,51
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,5/0,51 = 0,863
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,5/0,51 = 0,137
P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,5/0,49 = 0,122
P(W|-)= 1- P(L|-) = 0,878
b2) P(W) = 0,20
P(L) = 0,80
P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,732
P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,8/0,732 = 0,96
P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,2/0,732 = 0,04
P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,8/0,268 = 0,36
P(W|-)= 1- P(L|-) = 0,64
Statistik für SoziologInnen
72
Bedingte Wahrscheinlichkeiten
36
Herunterladen