Mathematik für Biologen - Universität Düsseldorf

Werbung
Messgenauigkeit
Binomialverteilung
Mathematik für Biologen
Prof. Dr. Rüdiger W. Braun
Heinrich-Heine-Universität Düsseldorf
14. Dezember 2012
Bedingte Wahrscheinlichkeit
Messgenauigkeit
Binomialverteilung
1
Messgenauigkeit
2
Binomialverteilung
Tabellen
3
Bedingte Wahrscheinlichkeit
Definition
Unabhängigkeit
Satz von der totalen Wahrscheinlichkeit
Bayessche Formel
Bedingte Wahrscheinlichkeit
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Signifikante Stellen
Die folgenden Zahlen haben 4 gültige (signifikante) Stellen
1.234
0.001234
123.4
1.234 · 106
Ergebnisse, die auf einer Messung beruhen, können nicht mehr
gültige Stellen haben als die ursprüngliche Messung.
In der Statistik ist das anders.
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Messwiederholungen
Thema der Statistik ist der Einfluss von Messwiederholungen
Durch Messwiederholungenen steigt die Genauigkeit
Beispiel: Bestimmung der Wahrscheinlichkeit von “Adler” für
eine reale Münze:
25 Messungen: Eine gültige Stelle
2 500 Messungen: Zwei gültige Stellen
25 000 000 Messungen: Vier gültige Stellen
Fehlerabschätzung bei Messwiederholungenen ist ein wichtiges
Thema der Statistik
Stichwort: Konfidenzintervalle
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Konkrete (Faust)-Regel
Rechnungen im Statistikteil werden auf 4 gültige
Stellen durchgeführt
Zwischenergebnisse werden nicht jedes Mal gerundet.
Das war auch im Analysis-Teil so.
Grund: Die Anhäufung von Rundungsfehlern muss vermieden
werden.
Messgenauigkeit
Binomialverteilung
Binomialverteilung
Bedingte Wahrscheinlichkeit
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Beispiel: fairer Würfel
Erfolg: Wurf einer 6
Erfolgswahrscheinlichkeit im Einzelfall: p =
1
6
Misserfolg: Wurf 1,2,3,4,5
Misserfolgswahrscheinlichkeit im Einzelfall: q = 1 − p =
5
6
Gesucht: Wahrscheinlichkeit von
A = “genau 2 Erfolge bei 5 Würfen”
1 125
5 2
Antwort B5, 1/6 (2) =
p (1 − p)3 = 10 ·
·
= 0.1608
2
36 216
Wie kommt das zustande?
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Binomialverteilung: Beispiel
e: Erfolg,
m: Misserfolg,
P(eemmm)
P(ememm)
P(emmem)
P(emmme)
P(meemm)
P(memem)
P(memme)
P(mmeem)
P(mmeme)
P(mmmee)
=
=
=
=
=
=
=
=
=
=
q =1−p
p·p·q·q·q
p·q·p·q·q
p·q·q·p·q
p·q·q·q·p
q·p·p·q·q
q·p·q·p·q
q·p·q·q·p
q·q·p·p·q
q·q·p·q·p
q·q·q·p·p
=
=
=
=
=
=
=
=
=
=
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
p2 · q3
P(A) ist dann die Summe, P(A) = 10 · p 2 · q 3 .
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Antwort: Mit Wahrscheinlichkeit
B5, 1/6 (0) + B5, 1/6 (1) + B5, 1/6 (2) = 0.9645
werden nicht mehr als 3 Sechsen beobachtet.
Jetzt dasselbe für n = 10
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Stabdiagramm von B10, 1/6
B10, 1/6(k)
Rote Fläche ist die Antwort auf die Frage:
Mit welcher Wahrscheinlichkeit fallen beim 10-fachen Wurf eines
fairen Würfels nicht mehr als 3 Sechsen?
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00 0
2
4
6
8
10
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Kumulierte Binomialverteilung
Mit welcher Wahrscheinlichkeit fallen beim 10-fachen Wurf eines
fairen Würfels nicht mehr als 3 Sechsen?
Antwort:
3
X
P=
B10, 1/6 (k) = 0.93027
k=0
Für solche Fragen gibt es Tabellen der kumulierten
Binomialverteilung
r
X
Bn, p (k)
k=0
in Abhängigkeit von r
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Tabelle der kumulierten B10, p
Tabelle der Werte
r
X
Bn, p für n = 10
k=0
r
0
1
2
3
4
5
6
7
p
0.
0.15
19687
54430
82020
95003
99013
99862
99987
99999
0.16
17490
50805
79360
93864
98699
99804
99979
99999
1
6
16151
48452
77523
93027
98454
99756
99973
99998
0.17
15516
47296
76587
92585
98320
99729
99970
99998
0.18
13745
43916
73720
91166
97868
99633
99956
99996
0.19
12158
40676
70778
89607
97337
99512
99938
99995
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Lesehinweise für kumulierte Tabellen
3
X
B10, 0.18 (k) = 0.91166
k=0
10
X
k=4
4
X
k=2
B10, 0.17 (k) = 1 −
3
X
B10, 0.17 (k) = 1 − 0.92585 = 0.07415
k=0
B10, 0.16 (k) =
4
X
B10, 0.16 (k) −
k=0
1
X
B10, 0.16 (k) =
k=0
0.98699 − 0.50805 = 0.47894
freie Felder oberhalb der Tabelle sind 0 im Rahmen der
Tabellengenauigkeit
freie Felder unterhalb der Tabelle sind 1 im Rahmen der
Tabellengenauigkeit
Tabellen erhalten Sie von mir
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
B10, 1/6(k)
Skizze zum dritten Beispiel
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00 0
2
4
k
6
8
10
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Beispiel Parasiten
Bestimmte Fische erkranken mit 85% Wahrscheinlichkeit an
einem Parasiten
47 Fische werden untersucht. Mit welcher Wahrscheinlichkeit
sind höchstens 40 davon erkrankt?
Gesucht
40
X
k=0
B47, 0.85 (k)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
B47, 0.85(k)
Graph von B47, 0.85
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00 0
10
20
k
30
40
Messgenauigkeit
Tabelle der Werte
r
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
p
0.
Pr
Binomialverteilung
Bedingte Wahrscheinlichkeit
k=0 Bn, p (k)
0.85
00001
00002
00008
00029
00093
00274
00742
01832
04128
08463
15768
26660
40904
57047
72665
85309
93639
97931
99552
99952
für n = 47
0.86
0.87
0.88
0.89
00001
00003
00012
00043
00137
00398
01060
02571
05663
11311
20441
33384
49285
65962
80597
91050
96887
99278
99917
00001
00005
00018
00063
00199
00573
01503
03578
07707
14978
26208
41238
58411
74830
87606
95379
98847
99856
00002
00007
00026
00091
00286
00817
02115
04946
10408
19651
33208
50182
67964
83128
93236
98178
99754
00001
00002
00010
00038
00130
00408
01156
02957
06792
13952
25538
41543
60042
77447
90248
97153
99582
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Beispiel Parasiten, Fortsetzung
Die Wahrscheinlichkeit, dass höchstens 40 Fische erkrankt sind, ist
gleich 0.57047
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Beispiel Pharmapräparat
Beispiel: 47 Mäuse sind erkrankt
Ein Präparat mit Heilungswahrscheinlichkeit 88% wird
eingesetzt
Mit welcher Wahrscheinlichkeit werden mindestens 40 Mäuse
geheilt?
Die Wahrscheinlichkeit, dass genau 40 Mäuse geheilt werden,
wird gegeben durch die Binomialverteilung B47, 0.88 (40)
Die Wahrscheinlichkeit, dass mindestens 40 Mäuse geheilt
werden, beträgt
47
X
k=40
B47, 0.88 (k) = 1 −
39
X
k=0
B47, 0.88 (k)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
B47, 0.88(k)
Graph von B47, 0.88
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00 0
10
20
k
30
40
Messgenauigkeit
Tabelle der Werte
r
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
p
0.
Pr
Binomialverteilung
Bedingte Wahrscheinlichkeit
k=0 Bn, p (k)
0.85
00001
00002
00008
00029
00093
00274
00742
01832
04128
08463
15768
26660
40904
57047
72665
85309
93639
97931
99552
99952
für n = 47
0.86
0.87
0.88
0.89
00001
00003
00012
00043
00137
00398
01060
02571
05663
11311
20441
33384
49285
65962
80597
91050
96887
99278
99917
00001
00005
00018
00063
00199
00573
01503
03578
07707
14978
26208
41238
58411
74830
87606
95379
98847
99856
00002
00007
00026
00091
00286
00817
02115
04946
10408
19651
33208
50182
67964
83128
93236
98178
99754
00001
00002
00010
00038
00130
00408
01156
02957
06792
13952
25538
41543
60042
77447
90248
97153
99582
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Pharmapräparat, Fortsetzung
Die Wahrscheinlichkeit, dass mindestens 40 Mäuse geheilt werden,
ist
39
X
1−
B47, 0.88 (k) = 1 − 0.19651 = 0.80349
k=0
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Nutzung von Zusatzinfo
Die bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit
unter Berücksichtigung von Zusatzinformationen
Beispielsweise ist für einen 50-jährigen die Wahrscheinlichkeit,
80 Jahre zu werden, (etwas) höher als für ein Neugeborenes
Allgemein wird mit P(A|B) die Wahrscheinlichkeit von A
bezeichnet, wenn bereits bekannt ist, dass B eingetreten ist
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
P(A|B) =
P(A ∩ B)
P(B)
bezeichnet man als bedingte Wahrscheinlichkeit von A unter der
Hypothese B
Die Hypothese B ist also vorausgesetzt (im Beispiel ist
jemand bereits 50 Jahre alt geworden)
Das Ereignis A ist das Ereignis, dessen Wahrscheinlichkeit
interessiert (im Beispiel ist A das Ereignis, älter als 80 zu
werden)
Man bezeichnet P(A) auch als totale Wahrscheinlichkeit,
wenn man den Unterschied zu einer bedingten
Wahrscheinlichkeit verdeutlichen will
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Rechenregeln
P(A|B) ist eine Wahrscheinlichkeit für A, erfüllt also die
Rechenregeln für Wahrscheinlichkeiten
die wichtigste ist die Regel für die Wahrscheinlichkeit des
Komplementärereignisses
P(Ac |B) = 1 − P(A|B)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Heuristische Begründung der Formel
P(A|B) =
P(A ∩ B)
P(B)
unter der Hypothese B ist B sicher, also P(B|B) = 1; daher
wird durch P(B) geteilt
unter der Hypothese B sind diejenigen Elementarereignisse
von A, die nicht in B liegen, irrelevant; daher steht im Zähler
P(A ∩ B) und nicht P(A)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Begriffsklärung
Ein Spam-Filter unterscheidet zwischen Spam und erwünschter
Mail. Dabei kommen Fehler vor. Für eine zufällig ausgewählte Mail
interessieren zwei Ereignisse
A : “es handelt sich um Spam”
B : “der Filter hält sie für Spam”
Dann ist P(B|A) die Wahrscheinlichkeit, dass Spam in den
Spam-Ordner gelegt wird
und P(A|B) ist die Wahrscheinlichkeit, dass im Spam-Ordner
aufgefundene Mail tatsächlich Spam ist.
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Beispiel zur bedingten Wahrscheinlichkeit
Sei Em50 das Ereignis, dass ein männliches Neugeborenes ein
Alter von mindestens 50 Jahren erreichen wird; laut
(österreichischer) Sterbetafel ist P(Em50 ) = 0.919
für 80 Jahre P(Em80 ) = 0.365
für weibliche Neugeborene P(Ew 50 ) = 0.958 und
P(Ew 80 ) = 0.566
dann wegen Em50 ∩ Em80 = Em80
P(Em80 |Em50 ) =
0.365
= 0.397
0.919
P(Ew 80 |Ew 50 ) =
0.566
= 0.591
0.958
und
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Produktformel
P(A ∩ B) = P(A|B) · P(B)
Insbesondere sind A und B genau dann unabhängig, wenn
P(A|B) = P(A)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Satz von der totalen Wahrscheinlichkeit
Bekannt:
totale Wahrscheinlichkeit P(B) und damit auch P(B c )
bedingte Wahrscheinlichkeiten P(A|B) und P(A|B c )
Gesucht: totale Wahrscheinlichkeit P(A)
P(A) = P(A ∩ B) + P(A ∩ B c )
= P(A|B) · P(B) + P(A|B c ) · P(B c )
= P(A|B) · P(B) + P(A|B c ) · (1 − P(B))
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Röntgenreihenuntersuchung auf TB
In den 1960-er Jahren wurden Röntgenreihenuntersuchungen
durchgeführt. Beispielhafte Daten:
bei 94% aller Erkrankten schlägt der Test an
bei 1% der Gesunden schlägt der Test an
99.8% aller Probanden sind gesund
Welches Ereignis nennen wir A und welches B?
B ist das Ereignis, dessen totale Wahrscheinlichkeit bekannt
ist
Zufällig herausgegriffener Proband
A : “Verdacht auf TB”
B : “an TB erkrankt”
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Röntgenreihenuntersuchungen, Fortsetzung
P(B) = 0.002 (totale Wahrscheinlichkeit)
P(A|B) = 0.94 (bedingte Wahrscheinlichkeit)
P(A|B c ) = 0.01 (bedingte Wahrscheinlichkeit)
Satz von der totalen Wahrscheinlichkeit
P(A) = P(A|B) · P(B) + P(A|B c ) · P(B c )
= 0.94 · 0.002 + 0.01 · 0.998
= 0.00188 + 0.00998
= 0.01186
1.186% aller Probanden verlassen die Untersuchung mit einem
Verdacht
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Röntgenreihenuntersuchung, Fortsetzung
Mit welcher Wahrscheinlichkeit wird ein Kranker nicht
endeckt?
Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose
falsch?
Mit welcher Wahrscheinlichkeit wird eine falsche Diagnose
gestellt?
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
Bayessche Formel
Bekannt:
totale Wahrscheinlichkeit P(B)
bedingte Wahrscheinlichkeiten P(A|B) und P(A|B c )
totale Wahrscheinlichkeit P(A) aus dem Satz von der totalen
Wahrscheinlichkeit
Gesucht: bedingte Wahrscheinlichkeit P(B|A)
P(B|A) =
P(A|B) · P(B)
P(A)
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
erste Frage
Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt?
P(Ac |B) = 1 − P(A|B) = 1 − 0.94 = 0.06
Die Wahrscheinlichkeit, dass ein Kranker für gesund gehalten wird,
beträgt 6%
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
zweite Frage
Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch?
P(B c |A) = 1 − P(B|A)
P(A|B) · P(B)
=1−
P(A)
0.94 · 0.002
=1−
0.01186
= 1 − 0.1585
= 0.8415
Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung
kam, war mit nahezu 85% Wahrscheinlichkeit gesund.
Messgenauigkeit
Binomialverteilung
Bedingte Wahrscheinlichkeit
dritte Frage
Mit welcher Wahrscheinlichkeit kommt es zu einer Fehldiagnose?
Das ist eine totale Wahrscheinlichkeit, nämlich
P(A ∩ B c ) + P(Ac ∩ B) = P(A|B c ) · P(B c ) + P(Ac |B) · P(B)
= 0.06 · 0.002 + 0.01 · 0.998
= 0.0101
Die Wahrscheinlichkeit einer Fehldiagnose beträgt 1.01%
Herunterladen