PowerPoint-Präsentation - Antiinfectives Intelligence

Bedingte
Wahrscheinlichkeiten und
diagnostische Tests II
M. Kresken
1
Bewertung eines diagnostischen Tests
• Für die Bewertung eines diagnostischen Tests kann die Richtigkeit
(Accuracy) intuitiv als Anteil der korrekten Ergebnisse an der
Gesamtzahl der Testergebnisse berechnet werden.
Test
Realität
gesamt
[K+]
[K–]
[T+]
a
b
a+b
[T–]
c
d
c+d
Gesamt
a+c
b+d
n=a+b+c+d
• In den Fällen a + d wurde Übereinstimmung zwischen dem
positiven Testergebnis und dem Vorliegen der Krankheit sowie dem
negativen Testergebnis und dem Vorliegen der Gesundheit
beobachtet.
M. Kresken
2
Bewertung eines diagnostischen Tests
• Dies entspricht einer beobachteten Übereinstimmungsrate von:
PO =
a+d
n
• Der Anteil der Fälle, die per Zufall übereinstimmen (erwartete
Übereinstimmungsrate), beträgt:
PE =
M. Kresken
(a + b) (a + c) + (c + d) (b + d)
n2
3
Bewertung eines diagnostischen Tests
• Für die Bewertung der Übereinstimmung bzw. als Maß für die
Übereinstimmung gibt man häufig das Verhältnis ‚Abweichung
der beobachteten (PO) von der erwarteten (PE)
Übereinstimmungsrate bezogen auf die Rate der erwarteten
Nicht-Übereinstimmungen‘ an:
k =
PO – PE
1 – PE
M. Kresken
4
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test:
PO =
PE =
=
980 + 989.010
989.990
=
= 0,98999
1.000.000
1.000.000
(10.970) (1.000) + (989.030) (999.000)
1.000.0002
10.970.000 + 988.040.970.000
1.000.000.000.000
=
988.051.940.000
= 0,98805
1.000.000.000.000
M. Kresken
5
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test:
k =
0,98999 – 0,98805
1 – 0,98805
=
0,00194
= 0,16234
0,01195
M. Kresken
6
Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen
der Erkrankung auf der Basis einer Stichprobe von 1.000.000
heterosexuellen Bundesbürgern
Völlige Übereinstimmung von beobachteten und erwarteten Häufigkeiten
HIV-positiv
Test
ja
[HIV+]
nein
[HIV–]
gesamt
positiv
[T+]
1.000
0
1.000
negativ
[T–]
0
999.000
999.000
Gesamt
1.000
999.000
1.000.000
M. Kresken
7
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test, bei völliger Übereinstimmung:
PO =
PE =
=
1.000 + 999.000
1.000.000
=
=1
1.000.000
1.000.000
(1.000) (1.000) + (999.000) (999.000)
1.000.0002
1.000.000 + 998.001.000.000
1.000.000.000.000
=
998.001.000.000
=
0,998
1.000.000.000.000
M. Kresken
8
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test, bei völliger Übereinstimmung:
k =
1 – 0,998
1 – 0,998
=
0,002
= 1
0,002
M. Kresken
9
Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen
der Erkrankung auf der Basis einer Stichprobe von 1.000.000
heterosexuellen Bundesbürgern
Völlige Nicht-Übereinstimmung von beobachteten und erwarteten Häufigkeiten
HIV-positiv
Test
ja
[HIV+]
nein
[HIV–]
gesamt
positiv
[T+]
0
999.000
999.000
negativ
[T–]
1.000
0
1.000
Gesamt
1.000
999.000
1.000.000
M. Kresken
10
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test, bei völliger Nicht-Übereinstimmung:
PO =
PE =
=
0+0
1.000.000
=
0
=0
1.000.000
(999.000) (1.000) + (1.000) (999.000)
1.000.0002
999.000.000 + 999.000.000
1.000.000.000.000
=
1.998.000.000
= 0,001998
1.000.000.000.000
M. Kresken
11
Bewertung eines diagnostischen Tests
• Beispiel HIV-Test, bei völliger Nicht-Übereinstimmung:
k =
0 – 0,001998
1 – 0,001998
=
- 0,001998
= -0,002
0,998002
M. Kresken
12
Bewertung eines diagnostischen Tests
• Der sogenannte k-Koeffizient gibt die Charakteristika des Tests
(Sensitivität, Spezifität, etc. ) aber nicht wieder.
• Der Sensitivität und Spezifität kommen aber bei der Bewertung
eines diagnostischen Tests große Bedeutung zu.
• Dem Wunsch einen möglichst hoch sensitiven und spezifischen
Test zu haben, steht die praktische Beobachtung entgegen,
dass Sensitivität und Spezifität of in gegenläufiger Beziehung
zueinander stehen.
• In der Praxis wird man nicht vom Ausgang lediglich eines Tests
auf die Realität schließen.
• In der Regel wird man mehrere Testverfahren, die sich ggf.
hinsichtlich Sensitivitäten und Spezifitäten unterscheiden,
gleichzeitig oder in zeitlicher Reihenfolge anwenden.
M. Kresken
13
Bewertung eines diagnostischen Tests
• Ein sensitiver Test liefert wenige falsch negative Resultate, was
für die Diagnostik gefährlicher, aber behandelbarer Krankheiten
wichtig ist.
• Ein spezifischer Test dient häufig zur Bestätigung einer
Diagnose, denn ein hoch spezifischer Test liefert nur wenig
falsch-positive Resultate.
M. Kresken
14
Likelihood Ratios
• Die Qualität eines diagnostischen Tests kann auch an Hand
positiver (LR+) und negativer (LR–) Likelihood Ratios
(Quotienten) beurteilt.
LR+
=
Sensitivität
1 – Spezifität
• LR+ beschreibt das Verhältnis der Wahrscheinlichkeit für ein
positives Testergebnis unter den Erkrankten zur
Wahrscheinlichkeit für ein positives Testergebnis unter den
Gesunden.
M. Kresken
15
Likelihood Ratios
• Beispiel HIV-Test:
LR+
=
0,98
= 98
1 – 0,99
• Die Wahrscheinlichkeit für ein positives Testergebnis unter den
Erkrankten ist 98-mal so hoch wie unter den Gesunden.
M. Kresken
16
Likelihood Ratios
LR–
=
1 – Sensitivität
Spezifität
• LR– beschreibt das Verhältnis der Wahrscheinlichkeit für ein
negatives Testergebnis unter den Gesunden zur
Wahrscheinlichkeit für ein negatives Testergebnis unter den
Erkrankten.
M. Kresken
17
Likelihood Ratios
• Beispiel HIV-Test:
LR–
=
1 – 0,98
= 0,0202; ~ 1 : 50
0,99
• Die Wahrscheinlichkeit für ein negatives Testergebnis unter den
Gesunden ist ungefähr 50-mal so hoch wie unter den
Erkrankten.
M. Kresken
18
Punktschätzer,
Konfidenzintervalle
M. Kresken
19
Punktschätzer, Konfidenzintervalle
• Die wesentliche Aufgabe des statistischen Schließens in den
Wissenschaften liegt darin, mit den Ergebnissen einer
Stichprobe von Beobachtungseinheiten (z.B. Zellkulturen,
Bakterienstämme, Versuchstiere, Probanden, Patienten etc.)
auf die unbekannte „Wahrheit“ zu schließen.
• Das bedeutet nicht, dass die konkreten Messungen in der
Stichprobe nicht „wahr“ wären.
• Der Begriff „Wahrheit“ ist in diesem Zusammenhang so zu
verstehen, dass die Ergebnisse in der Stichprobe im
Allgemeinen nicht exakt die Verteilung der Werte in der
Population beschreiben, aus der die „Stichprobe“ gezogen
wurde.
M. Kresken
20
Punktschätzer, Konfidenzintervalle
• Beispiel: 30 männliche Querschnittgelähmte aus Deutschland
zwischen 20 und 60 Jahren mit neurogenen Blasenstörungen
erhalten eine bestimmte Therapie.
• Die für die 30 Patienten nach 3 Wochen beobachtete mittlere
Zunahme der Blasenkapazität wird dann nur eine Schätzung der
unbekannten mittleren Zunahme aller für diese Behandlung in
Deutschland jetzt oder in den nächsten Jahren in Frage
kommenden Patienten mit gleicher Altersstruktur und Diagnose
sein.
• Abgesehen von dem Problem, ob die 30 Patienten in diesem
Zeitraum überhaupt eine repräsentative Stichprobe aus der
Gesamtpopulation darstellen, wird die beobachtete mittlere
Zunahme auf Grund der biologischen Variabilität und der
Messfehler mehr oder weniger von dem unbekannten Wert in der
Population abweichen.
M. Kresken
21
Punktschätzer, Konfidenzintervalle
• Gibt man als Ergebnis die beobachtete mittlere Zunahme der
maximalen Blasenkapazität an, so ist dieser Mittelwert eine
Punktschätzung (im statistischen Sinn).
• Der unbekannte Parameter wird durch die Angabe eines einzelnen
Wertes geschätzt.
• Mit Hilfe eines Punktschätzers wird aber eine wichtige Information,
nämlich der Stichprobenumfang, vorenthalten.
• Eine Schätzung des Therapieeffektes aus einer Stichprobe vom
Umfang 150 wird sicher vertrauenswürdiger sein als die Schätzung
aus einer Stichprobe vom Umfang 30.
• Daher sollten Schätzungen nicht ohne Angaben über ihre
Zuverlässigkeit (z.B. Stichprobenumfang, Streuung) angeführt
werden.
• Die Statistik beschäftigt sich auch mit der Frage, wie ein
Schätzwert gebildet werden sollte.
M. Kresken
22
Punktschätzer, Konfidenzintervalle
• Wenn man im Freien (ohne Armbanduhr) die Uhrzeit schätzen
muss, so kann man dies nach dem Sonnenstand tun.
• Diese Schätzung wird „unscharf“ sein und bei mehreren Personen
stark unterschiedlich ausfallen. Der Schätzer ist nicht effizient.
• An einem klaren Tag wird die Schätzung einer Personengruppe
vielleicht systematisch von der wahren Uhrzeit abweichen, weil die
Tageszeit evtl. zu früh eingeschätzt wird. Die Schätzung ist
verzerrt.
• Wenn man auf die Frage nach der Uhrzeit immer mit „13 Uhr“
antwortet, ist diese Schätzung nur einmal am Tag genau richtig,
ansonsten immer falsch. Der Schätzer ist also fast immer verzerrt.
• Gute statistische Schätzer versuchen möglichst genau (effizient)
und möglichst richtig (unverzerrt) zu sein.
M. Kresken
23
Punktschätzer, Konfidenzintervalle
• Der Schätzer selbst ist eine Zufallsvariable, da er aus zufällig
variierenden Messungen gebildet wird, die selbst Zufallsvariablen
sind.
• Sinnvollerweise verwendet man daher solche Schätzer, deren
Erwartungswert gleich dem „wahren“ Wert ist.
• Die Präzision der Schätzung lässt sich dann an Hand der Streuung
bzw. des Standardfehlers charakterisieren.
• Können auf Grund einer Stichprobe Intervalle angegeben werden,
in denen der unbekannte Wert vermutet wird?
• Welches Intervall man auch angibt: der unbekannte Parameterwert
liegt entweder innerhalb oder außerhalb des Intervalls.
M. Kresken
24
Punktschätzer, Konfidenzintervalle
• Wenn man zugrunde legt, dass ausgewählte Patienten eine
Zufallsstichprobe aus einer unbekannten (festen) Population
darstellen und die unbekannten Charakteristiken dieser Population
durch die Stichprobe geschätzt werden sollen, verbietet sich die
Interpretation „Der unbekannte Parameter liegt mit einer gewissen
Wahrscheinlichkeit in diesem Intervall.“
• Da das Intervall, aus Beobachtungen einer einzigen Stichprobe
gebildet, als „fix“ erscheinen mag, gewinnt man aufgrund der
obigen Überlegungen schnell den Eindruck, dass der unbekannte
Parameter variiert.
• Dies korrespondiert jedoch nicht mit der statistischen
Modellannahme, die den „wahren“ unbekannten Parameter als fix
erachtet.
• Wie muss daher ein solches Intervall unter den gewählten
statistischen Randbedingungen lauten?
M. Kresken
25
Punktschätzer, Konfidenzintervalle
• Man sagt, eine Intervallschätzung überdeckt einen unbekannten
Parameter mit einer Vertrauenswahrscheinlichkeit
(Konfidenzwahrscheinlichkeit) von 95%, wenn bei oftmaliger
Wiederholung eines bestimmten Experimentes im Long-run das
aus der jeweiligen Stichprobe bestimmte Konfidenzintervall in 95%
aller Experimente den unbekannten Wert des Parameters
überdeckt.
• D. h., nur in 5% der Fälle liegt das aus den Daten bestimmte
Konfidenzintervall entweder zur Gänze links oder rechts vom
unbekannten Parameterwert (üblicherweise in jeweils der Hälfte
der Fälle rechts oder links).
• Die Konfidenzwahrscheinlichkeit lässt sich In diesem Sinne als
Sicherheit der Schätzung verstehen.
• Die Länge des Konfidenzintervalls (d.h. der Abstand zwischen
oberer und unterer Grenze) entspricht der Präzision der Schätzung.
M. Kresken
26
Definition des Konfidenzintervalls
• Es soll also ein Intervall angegeben werden, welches mit einer
vorgegebenen Wahrscheinlichkeit 1- den zu schätzenden wahren
Parameter der Verteilung in der Grundgesamtheit überdeckt.
• Üblicherweise wird 1- = 0,95 oder 0,99, also  = 0,05 bzw. 0,01
gesetzt.
• Dabei gibt  die Irrtumswahrscheinlichkeit an, dass der gewählte
Bereich den Parameter nicht überdeckt.
• Solche Intervalle heißen (zweiseitige) (1-)-Konfidenzintervalle.
Das heißt, bei Wahl von  = 0,05 wird im Long-run in 5 von 100
Fällen das Konfidenzintervall den wahren Erwartungswert nicht
überdecken.
M. Kresken
27
Definition des Konfidenzintervalls
• Dabei werden Intervallgrenzen Au und Ao (u für untere und o für
obere) für einen Parameter  so berechnet, dass gilt:
P(Au    Ao)  1 - .
• Im Allgemeinen werden die Grenzen so gewählt, dass die untere
gleich der oberen Überschreitungswahrscheinlichkeit ist.
M. Kresken
28
Konstruktion von Konfidenzintervallen
(1 - )-Konfidenzintervall für den Erwartungswert
normalverteilter Daten mit bekannter Varianz
• Liegen n Messwerte eines (, _2)-normalverteilten Merkmals vor,
so ist das arithmetische Mittel x der „beste“ Schätzer für den
Erwartungswert  in der Grundgesamtheit.
• Ist die Varianz 2 bekannt, was in Anwendungen selten der
_ Fall ist,
so ist SE =  / n der Standardfehler des Mittelwertes x.
• Man erhält dann das zweiseitige Konfidenzintervall
[
M. Kresken
_
x–z 1–
(

2
)

n
,
_
x+z 1–
(

2
)

n
];
29
Konstruktion von Konfidenzintervallen
(1 - )-Konfidenzintervall für den Erwartungswert
normalverteilter Daten mit bekannter Varianz
Intervallgrenzen und Länge eines (1 - )-Konfidenzintervalls
M. Kresken
30
Konstruktion von Konfidenzintervallen
(1 - )-Konfidenzintervall für den Erwartungswert
normalverteilter Daten mit bekannter Varianz

2

2
• Wegen der Symmetrie z (1 –
) = -z ( ) lässt sich das
Konfidenzintervall auch berechnen durch
[
_
x+z

2
( )

n
_
; x+z 1–
(

2
)

n
].
• Hierbei ist z () das -Quantil der Standardnormalverteilung.
• Unter der Annahme der Normalverteilung leuchtet ein, dass das
Konvidenzintervall üblicherweise
symmetrisch um den
_
Stichprobenmittelwert x gewählt wird.
• Was die Frage über die Länge des Intervalls bei vorgegebener
„Überdeckungswahrscheinlichkeit“ (1-) betrifft, so ist einzusehen,
dass das Intervall kleiner wird, je größer der Stichprobenumfang n
bzw. je kleiner die Standardabweichung  ist.
M. Kresken
31
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
Beispiel 1:
• In einem Labor ist durch Langzeiterfahrung bekannt, dass die
Bestimmung eines Enzyms mit einer Standardabweichung von 1,5
I.E. variiert.
• Berechnung des 95%-Konfidenzintervalls für den Erartungswert
der Enzymbestimmung aus 4 Bestimmungen (in I.E.): 23,9; 20,0;
22,3; 21,4
[
_
x–z 1–
(

2
)

n
,
_
x+z 1–
(

2
)

n
];
_
1
1
x=
87,6 = 21,9
(23,9 + 20,0 + 22,3 + 21,4) =
4
4
M. Kresken
32
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Für  = 0,05 ergibt sich das benötigte Quantil der
Standardnormalverteilung als
(
z 1–
M. Kresken

2
) = z(0,975)
33
Tabelle der Normalverteilung
Entsprechend ergibt sich für das
0,975-Quantil ( = 0,975):
Verwenden der Symmetrie
z(0,975)
= -z(1 – 0,975)
= -z(0,025)
= -(-1,96)
= 1,96
M. Kresken
34
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Für  = 0,05 ergibt sich das benötigte Quantil der
Standardnormalverteilung als
(
z 1–
M. Kresken

2
) = z(0,975) = 1,96
35
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Damit ist für n = 4 die untere Grenze eines 95%-Konfidenzintervalls
bei bekannter Varianz 2 = 1,52:
_
x–z 1–
(

2
)

= 21,9 – 1,96 •
1,5
4
n
= 21,9 – 1,96 • 0,75
= 20,43
M. Kresken
36
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Entsprechend berechnet sich die obere Grenze:
_
x+z 1–
(

2
)

= 21,9 + 1,96 •
1,5
4
n
= 21,9 + 1,96 • 0,75
= 23,37
M. Kresken
37
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Berechnung der Grenzen für ein 99%-Konfidenzintervall:
 = 0,01
1–
(

2
z 1–
M. Kresken
= 0,995

2
) = z(0,995)
38
Tabelle der Normalverteilung
Entsprechend ergibt sich für das
0,995-Quantil ( = 0,995):
Verwenden der Symmetrie
z(0,995)
= -z(1 – 0,995)
= -z(0,005)
= -(-2,575)
= 2,575 = ~ 2,58
M. Kresken
39
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Berechnung der Grenzen für ein 99%-Konfidenzintervall:
 = 0,01
1–
(

2
z 1–
M. Kresken
= 0,995

2
) = z(0,995) = 2,58
40
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Die untere Grenze eines 99%-Konfidenzintervalls liegt bei:
_
x–z 1–
(

2
)

= 21,9 – 2,58 •
1,5
4
n
= 21,9 – 2,58 • 0,75
= 19,97
M. Kresken
41
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Die obere Grenze eines 99%-Konfidenzintervalls liegt bei:
_
x+z 1–
(

2
)

= 21,9 + 2,58 •
1,5
4
n
= 21,9 + 2,58 • 0,75
= 23,84
M. Kresken
42
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
• Die Länge des 99%-Konfidenzintervalls beträgt 3,87 [I.E.] und ist
erwartungsgemäß größer als die Länge 2,94 [I.E.] des 95 %Konfidenzintervalls
M. Kresken
43
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
Beispiel 2:
• Bei einer Voruntersuchung eines biologischen Parameters hat sich
eine Standardabweichung von 10 I.E. ergeben.
• Wie groß muss die zukünftige Stichprobe sein, damit das 95%Konfidenzintervall bzw. das 99%- Konfidenzintervall für den
unbekannten Mittelwert nicht größer als
4 I.E. sein wird.
Die Länge des (1-)-Konfidenzintervalls beträgt:
2z
M. Kresken
(1 –

2
)

 4
n
44
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz

2
(
Mit  = 0,05 und z 1 –
) = z(0,975) = 1,96 ist dies erfüllt, wenn:

2
n  2z
(
n 2•
1,96 • 10
4
n 
1–
1,96 • 10
2
)

4
= 9,8
oder n  96,04, also erstmals für n = 97
M. Kresken
45
Beispiele für den Erwartungswert einer
Normalverteilung mit bekannter Varianz
(
Mit  = 0,01 und z 1 –
n 

2
) = z(0,995) = 2,58 ist dies erfüllt wenn:
2,58 • 10
2
= 12,9
oder n  166,41, also erstmals für n = 167
• Für ein 99%-Konfidenzintervall müssen mindestens 167
Beobachtungen vorliegen.
• Für eine höhere Überdeckungswahrscheinlichkeit (Genauigkeit) ist
ein höherer „Preis“ im Stichprobenumfang zu bezahlen.
M. Kresken
46