Klinische Epidemiologie

Werbung
Statistische Tests in
(klinischen und epidemiologischen)
Beobachtungsstudien
Ergebnisunsicherheit und
Statistische Testverfahren
Dr. Gerß (IMIB)
[Prof. Hense (IES)]
Kurze Wiederholung vom Freitag…

Unsicherheit in Studien
Eine klinische oder epidemiologische Studie wird (im Gegensatz
zum häufig replizierbaren Experiment) nur einmal durchgeführt:
das in dieser Studie ermittelte Effektmaß ist also nur eine
einmalige Schätzung des wahren Wertes.
Wahrscheinlichkeit und relative Häufigkeit
Beispiel: Prävalenz einer Erkrankung
Theoretische Wahrscheinlichkeit
= Relative Häufigkeit der
Erkrankung in der Grundgesamtheit
Empirische Information
Gewinnung einer repräsentativen
Stichprobe
-> Bestimmung der relativen
Häufigkeit der Erkrankung in der
Stichprobe
z.B.
Untersuchung von n=100 Patienten
Relative Häufigkeit der Erkrankung
= 19%
Wahrscheinlichkeit und relative Häufigkeit
Beispiel: Prävalenz einer Erkrankung
Theoretische Wahrscheinlichkeit
= Relative Häufigkeit der
Erkrankung in der Grundgesamtheit
Nutzung der relativen Häufigkeit der
Stichprobe zur Schätzung der
entsprechenden Rate in der
Grundgesamtheit
Wie viele Erkrankten würde ich
finden, wenn ich nicht nur die n
Patienten der Stichprobe
untersuchen würde, sondern
sämtliche Patienten der
Grundgesamtheit?
Empirische Information
Gewinnung einer repräsentativen
Stichprobe
-> Bestimmung der relativen
Häufigkeit der Erkrankung in der
Stichprobe
z.B.
Untersuchung von n=100 Patienten
Relative Häufigkeit der Erkrankung
= 19%
Wahrscheinlichkeit und relative Häufigkeit
Beispiel: Prävalenz einer Erkrankung
Theoretische Wahrscheinlichkeit
= Relative Häufigkeit der
Erkrankung in der Grundgesamtheit
Nutzung der relativen Häufigkeit der
Stichprobe zur Schätzung der
entsprechenden Rate in der
Grundgesamtheit
Empirische Information
Gewinnung einer repräsentativen
Stichprobe
-> Bestimmung der relativen
Häufigkeit der Erkrankung in der
Stichprobe
z.B.
Untersuchung von n=100 Patienten
Relative Häufigkeit der Erkrankung
= 19%
Wie viele Erkrankten würde ich
Deskriptive
Statistik:
finden, wenn ich nicht nur die
n
Patienten der Stichprobe Beschreibung des empirischen Stichprobenergebnisses
untersuchen würde, sondern
Induktive Statistik:
sämtliche Patienten der
Induktiver Schluss von der empirischen Information
Grundgesamtheit?
der Stichprobe auf die Grundgesamtheit.
Wahrscheinlichkeit und relative Häufigkeit
Beispiel: Prävalenz einer Erkrankung
Theoretische Wahrscheinlichkeit
= Relative Häufigkeit der
Erkrankung in der Grundgesamtheit
Nutzung der relativen Häufigkeit der
Stichprobe zur Schätzung der
entsprechenden Rate in der
Grundgesamtheit
Empirische Information
Gewinnung einer repräsentativen
Stichprobe
-> Bestimmung der relativen
Häufigkeit der Erkrankung in der
Stichprobe
z.B.
Untersuchung von n=100 Patienten
Relative Häufigkeit der Erkrankung
= 19%
Wie viele Erkrankten würde ich
Deskriptive
Statistik:
finden, wenn ich nicht nur die
n
Patienten der Stichprobe Relative Erkrankungsrate in der Stichprobe, z.B.=19%
untersuchen würde, sondern
Induktive Statistik:
sämtliche Patienten der
Schätzung der unbekannten Rate in der GG,
Grundgesamtheit?
z.B.
p̂=19% mit Konfidenzintervall 11.8% – 28.1%
Unsicherheit in Studien
Eine Klinische oder epidemiologische Studie wird (im Gegensatz
zum häufig replizierbaren Experiment) nur einmal durchgeführt:
das in dieser Studie ermittelte Effektmaß ist also nur eine
einmalige Schätzung des wahren Wertes.
Das Konfidenzintervall ist ein statistisch bestimmtes Maß
für die Präzision, mit der eine Studie z.B. Mittelwerte, Differenzen
oder Prävalenzen, Inzidenzraten, Relative Risiken etc.
geschätzt hat.
Konfidenzintervall
Wahrscheinlichkeit P=?
―
―
―
0
? ? ? ? ? ?? ? ? ? ?
h
1
Rel. Häufigkeit in
der Stichprobe
Konfidenzintervall
Das Konfidenzintervall enthält mit 95%iger
Wahrscheinlichkeit den unbekannten Wert P
Wahrscheinlichkeit P=?
―
―
―
0
? ? ? ? ? ?? ? ? ? ?
h
1
Rel. Häufigkeit in
der Stichprobe
Eine zufällige Stichprobe
Wirklichkeit
Testergebnis
T+:
(Mamma-Ca: Ja)
T-:
(Mamma-Ca: nein)
Gesamt
(nach Goldstandard ermittelt)
W +:
(Mamma-Ca:Ja)
W-:
(Mamma-Ca: nein)
Gesamt
12
97
109
2
889
891
14
986
1000
Eine zufällige Stichprobe
Wirklichkeit
Testergebnis
T+:
(Mamma-Ca: Ja)
T-:
(Mamma-Ca: nein)
Gesamt
(nach Goldstandard ermittelt)
W +:
(Mamma-Ca:Ja)
W-:
(Mamma-Ca: nein)
Gesamt
12
97
109
2
889
891
14
986
1000
Schätzwerte:
Prävalenz = 14/1000 = 0.014,
Sensitivität = 12/14 = 0.86,
Spezifität = 889/986 = 0.90,
ppV = 12/109 = 0.11
Vertrauensgrenzen
Schätzwerte
untere Grenze
obere Grenze
0.008
0.023
= 0.86
0.57
0.98
Spezifität
889/986 = 0.90
0.88
0.92
ppV
12/109
0.06
0.18
Prävalenz
14/1000 = 0.014
Sensitivität 12/14
= 0.11
Die angegebenen Grenzen sind so berechnet, dass sie mit
95%-Wahrscheinlichkeit den (unbekannten) wahren Wert umschließen.
Das so berechnete Intervall ist das 95%-Konfidenzintervall.
Problemaufriss: Vergleich zweier Medikamente
Es gibt Untersuchungen zur Wirkung eines neuen Asthmamittels A.
Sie vergleichen die Wirkung mit der aktuellen Standardtherapie B.
Endpunkt ist die Anfallsrate an Asthma.
Frage:
Ist A wirksamer als B?
Auf welcher wissenschaftlichen Basis (Evidenz)
beruht diese Aussage?
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Ist Behandlung A wirksamer als Behandlung B?
Erfolg
Misserfolg
Behandlung A
40
( r̂A = 80%)
10
Behandlung B
35
( r̂B = 70%)
15
Testproblem
Gesamt
Empirische Erfolgsraten
50
in der Stichprobe
50Erfolgsraten
Unbekannte
in der Grundgesamtheit
H0: rA=rB gegen H1: rA≠rB
„Die beobachteten
Unterschiede zwischen den
empirischen Erfolgsraten
sind durch Zufall zu
erklären.“
„Die Unterschiede zw. den
emp. Raten sind überzufällig
bzw. „signifikant“, d.h. auf
systematische Unterschiede
in der GG zurück zu führen.“
Ist Behandlung A wirksamer als Behandlung B?
Erfolg
Misserfolg
Gesamt
Behandlung A
40
( r̂A = 80%)
10
50
Behandlung B
35
( r̂B = 70%)
15
50
Testproblem
H0: rA=rB gegen H1: rA≠rB
Mögliche Lösung des Testproblems?
Konfidenzintervalle zum
Niveau 95%
A
B
0%
20%
40%
60%
80%
100%
Ist Behandlung A wirksamer als Behandlung B?
Erfolg
Misserfolg
Gesamt
Behandlung A
40
( r̂A = 80%)
10
50
Behandlung B
35
( r̂B = 70%)
15
50
Testproblem
H0: rA=rB gegen H1: rA≠rB
Anwendung eines Signifikanztests => „p-Wert“
p<0.05 => Testentscheidung zugunsten H1
p≥0.05 => Testentscheidung zugunsten H0
Hier: p=0.3556, d.h. Entscheidung für H0 („nicht signifikant“)
Ist Behandlung A wirksamer als Behandlung B?
Erfolg
Misserfolg
Gesamt
Behandlung A
45
( r̂A = 90%)
5
50
Behandlung B
35
( r̂B = 70%)
15
50
Testproblem
H0: rA=rB gegen H1: rA≠rB
p=0.02445, d.h. Entscheidung für H1 („signifikant“)
Ist Behandlung A wirksamer als Behandlung B?
Erfolg
Misserfolg
Gesamt
Behandlung A
160
( r̂A = 80%)
40
200
Behandlung B
140
( r̂B = 70%)
60
200
Testproblem
H0: rA=rB gegen H1: rA≠rB
p=0.02824, d.h. Entscheidung für H1 („signifikant“)
Der Test erkennt auf Signifikanz, wenn der Unterschied der
verglichenen Erfolgsraten entweder groß ist oder durch eine
große Fallzahl belegt, d.h. „stabil“ ist.
Signifikanz und klinische Relevanz
Der Test erkennt auf Signifikanz, wenn der Unterschied der
verglichenen Erfolgsraten entweder groß ist oder durch eine große
Fallzahl belegt, d.h. „stabil“ ist.
Statistische Signifikanz: Gibt es (überzufällige) Unterschiede in den
Erfolgsraten?
Daraus folgt nicht notwendigerweise, dass die Unterschiede eine
klinisch relevante Größe haben.
Der p-Wert sagt aus, ob es Unterschiede in den
Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!
Beurteilung der klinischen Relevanz:
Angabe eines Effektschätzers zusätzlich zum p-Wert, z.B. in Form
der Differenz oder des Quotienten beider Erfolgsraten
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Der p-Wert
In welchem Maß widersprechen die beobachteten Daten der
Nullhypothese?
Definition:
Vorausgesetzt die Nullhypothese würde zutreffen,
d.h. beide Erfolgsraten stimmen in der Grundgesamtheit überein:
Wie groß ist dann die Wahrscheinlichkeit,
ein solches empirisches Ergebnis wie das tatsächlich beobachtete
zu beobachten
(oder eines, das der Nullhypothese noch mehr widerspricht)?
Der p-Wert gibt nicht an, mit welcher Wahrscheinlichkeit
die Nullhypothese der Übereinstimmung beider Erfolgsraten in der Grundgesamtheit zutrifft!
Der p-Wert
Beispiel: Gegeben sei eine Münze
 H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
 Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
 Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
Bin(n=20,p=0.5)
0.15
0.10
0.05
0.0
0
2
4
6
8
10 12 14 16 18 20
Der p-Wert
Beispiel: Gegeben sei eine Münze
 H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
 Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
 Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
 Anschl.: Tatsächliche Durchführung
des Experiments
Bin(n=20,p=0.5)
0.15
0.10
0.05
0.0
0
2
4
6
8
10 12 14 16 18 20
Der p-Wert
Beispiel: Gegeben sei eine Münze
 H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
 Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
 Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
 Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=14
Bin(n=20,p=0.5)
0.15
0.10
0.05
0.0
0
2
4
6
8
10 12 14 16 18 20
Der p-Wert
Beispiel: Gegeben sei eine Münze
 H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
 Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
 Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
 Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=14
=> p=0.1153
Bin(n=20,p=0.5)
0.15
0.10
0.05
0.0
0
2
4
6
8
10 12 14 16 18 20
Der p-Wert
Beispiel: Gegeben sei eine Münze
 H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
 Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
 Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
 Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=15
=> p=0.0414
Bin(n=20,p=0.5)
0.15
0.10
0.05
0.0
0
2
4
6
8
10 12 14 16 18 20
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Gütekriterien des Signifikanztests
Testproblem H0: r1=r2 gegen H1: r1≠r2
In Wirklichkeit ist
H0 richtig
H1 richtig
Entscheidung für H0
richtig
Fehler 2. Art
Entscheidung für H1
Fehler 1. Art
richtig
Art
P(FehlerFehler
1. Art) ≤1.α=5%
H0: r1=r2 gegen
Entscheidung zu unrecht für H1 (falsch positiv)
Man behauptet zu unrecht, es gäbe einen Unterschied.
kein „symmetrisches“ Verfahren im Sinne einer
H1: r1≠r2 Entscheidung für die „wahrscheinlichere“ der beiden
Hypothesen
stattdessen konservativer Ansatz: „Im Zweifel für H0“
Art
P(FehlerFehler
2. Art) ≈2.20%
wird toleriert
Entscheidung zu unrecht für H0 (falsch negativ)
Man versäumt, einen bestehenden Unterschied zu
erkennen.
Gütekriterien des Signifikanztests
Testproblem H0: r1=r2 gegen H1: r1≠r2
In Wirklichkeit ist
H0 richtig
H1 richtig
Entscheidung für H0
richtig
Fehler 2. Art
Entscheidung für H1
Fehler 1. Art
richtig
Art
P(FehlerFehler
1. Art) ≤1.α=5%
H0: r1=r2 gegen
Entscheidung zu unrecht für H1 (falsch positiv)
Man behauptet zu unrecht, es gäbe einen Unterschied.
kein „symmetrisches“ Verfahren im Sinne einer
H1: r1≠r2 Entscheidung für die „wahrscheinlichere“ der beiden
Hypothesen
stattdessen konservativer Ansatz: „Im Zweifel für H0“
Art
P(FehlerFehler
2. Art) ≈2.20%
wird toleriert
Entscheidung zu unrecht für H0 (falsch negativ)
Man versäumt, einen bestehenden Unterschied zu
erkennen.
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo
r1: Erfolgswahrscheinlichkeit unter aktiver Therapie
Power = Wkt eines signifikanten Testergebnisses
H0: r1=r0
gegen
H1: r1≠r0
100%
„Powerfunktion“
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
r0 = 0.5
r1 =
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo
r1: Erfolgswahrscheinlichkeit unter aktiver Therapie
Power = Wkt eines signifikanten Testergebnisses
H0: r1=r0
gegen
H1: r1≠r0
100%
„Powerfunktion“
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
r0 = 0.5
r1 =
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
H0
H1
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo
r1: Erfolgswahrscheinlichkeit unter aktiver Therapie
Power = Wkt eines signifikanten Testergebnisses
H0: r1=r0
gegen
H1: r1≠r0
100%
90%
Fehler 2.Art
80%
70%
60%
50%
40%
30%
20%
10%
Fehler 1.Art
0%
r0 = 0.5
r1 =
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
H0
H1
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo
r1: Erfolgswahrscheinlichkeit unter aktiver Therapie
Power = Wkt eines signifikanten Testergebnisses
H0: r1=r0
gegen
H1: r1≠r0
100%
90%
Fehler 2.Art
80%
70%
60%
50%
40%
?
30%
?
20%
10%
Fehler 1.Art
0%
r0 = 0.5
r1 =
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
H0
H1
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo
r1: Erfolgswahrscheinlichkeit unter aktiver Therapie
Power = Wkt eines signifikanten Testergebnisses
H0: r1=r0
gegen
H1: r1≠r0
100%
90%
Fehler 2.Art
80%
70%
60%
50%
40%
n=100
n=50 pro Gruppe
30%
20%
10%
Fehler 1.Art
0%
r0 = 0.5
r1 =
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
H0
H1
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Signifikanztests bei metrischen Zielgrößen
bisher: Vergleich zweier Erfolgsraten
H0: r1=r2 gegen H1: r1≠r2
Bsp.: Metrische Zielgröße Blutdrucksenkung
µ1,µ2: „Erwartungswerte“
= (Unbeobachtbare) arithmetische Mittelwerte der Zielgröße in der
Grundgesamtheit
µ1: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten
der Grundgesamtheit Therapie 1 bekommen hätten
µ2: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten
der Grundgesamtheit Therapie 2 bekommen hätten
Testproblem: H0: µ1=µ2 gegen H1: µ1≠µ2
Signifikanztests bei metrischen Zielgrößen
→ Sind die Daten normalverteilt?
... Was ist eine Wahrscheinlichkeitsverteilung?
Histogramm
Wahrscheinlichkeitsverteilung
Gauss‘sche
Normalverteilung
f (x) 
80
100
120
140
160
systolischer Blutdruck (mm Hg)
1
  2
180
e
1  x  
 

2  
2
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2.
Lagetests bei nicht normalverteilten Zielgrößen
(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
und
unverbundener
Ein-verbundener
und zweiseitige
Testprobleme
Test
Regel werden
Tests durchgeführt.Zielgrößen
2.In der
Lagetests
beizweiseitige
nicht normalverteilten
Bsp:
Vergleich einer aktiven Therapie
A gegenüber
(„Nichtparametrische
Verfahren“,
insbes.Plazebo
bei kleiner Fallzahl)
Einseitiger Test: H0: μA≤μPlazebo , d.h. A ist gleichwertig oder unterlegen
verbundeneHStichproben:
Wilcoxon-Rangsummentest
A ist überlegen gegenüber Plazebo
1: μA>μPlazebo , d.h.
=> unverbundene
Nachteil des einseitigen
Tests:
Stichproben:
U-Test von Mann-Whitney
Im Fall eines nicht-signifikanten Ergebnisses kann nicht differenziert werden
Gleichwertigkeit
und Unterlegenheit
3.zwischen
Test zum
Vergleich(=Wirkungslosigkeit)
zweier Erfolgsraten:
2-Test gegenüber
Plazebo (=Schädlichkeit!)
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2.
Lagetests bei nicht normalverteilten Zielgrößen
(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
Beispiel: Klinische Studie zur Blutdrucksenkung
• Zwei alternative Therapieverfahren
• Bei jedem Patienten wird der Blutdruck jeweils vor und
nach Anwendung der Therapie gemessen
Therapie Pat.-Nr.
A
Erwartungswerte
PRE
POST
POST-PRE
A1
140
120
-20
A2
130
130
0
A3
130
120
-10
PRE
POST
Differenz
µA(pre)
µA(post)
µA(post-pre)
…
…
…
B1
135
130
-5
B2
140
145
+5
B3
130
130
0
…
…
…
…
verbundener Test
unverbundener Test
…
B
Blutdruck
µB(pre)
µB(post)
µB(post-pre)
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2.
Lagetests bei nicht normalverteilten Zielgrößen
(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2.
Lagetests bei nicht normalverteilten Zielgrößen
(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Das multiple Testproblem
Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung
eines statistischen Testproblems.
Das multiple Testproblem
Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung
eines statistischen Testproblems.
Die mehrfache Anwendung eines Tests kann dazu
führen, dass das Signifikanzniveau überschritten wird!
Beispiel:
H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam
Zur Lösung des Testproblems werden mehrere Tests durchgeführt:
(i) Senkung des systolischen Blutdrucks
(ii) Senkung des diastolischen Blutdrucks
(iii) Einstellung des Tag-Nacht-Rhythmus
Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird
als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.
Das multiple Testproblem
Ein (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung
eines statistischen Testproblems.
Die mehrfache Anwendung eines Tests kann dazu
führen, dass das Signifikanzniveau überschritten wird!
Beispiel:
H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam
Zur Lösung des Testproblems werden mehrere Tests durchgeführt:
(i) Senkung des systolischen Blutdrucks
Fehler 1. Art = 5%
(ii) Senkung des diastolischen Blutdrucks
Fehler 1. Art = 5%
(iii) Einstellung des Tag-Nacht-Rhythmus
Fehler 1. Art = 5%
Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird
als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.
Das multiple Testproblem
Wann kann ein multiples Testproblem entstehen?
Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer
Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als
positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.
• Keine eindeutige Wahl des primären Zielkriteriums einer
Studie
• Zwischenauswertungen
• Keine eindeutige Festlegung des statistischen
Auswertungsverfahrens
• Paarvergleiche z.B. mehrerer Behandlungen /
Dosierungen
• Subgruppenanalyse
Prinzipien des Statistischen Testens
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Konfidenzintervall
Das Konfidenzintervall enthält mit 95%iger
Wahrscheinlichkeit den unbekannten Wert P
Wahrscheinlichkeit P=?
―
―
―
0
? ? ? ? ? ?? ? ? ? ?
h
1
Rel. Häufigkeit in
der Stichprobe
Konfidenzintervalle
Beispiel
µ: Erwartete Blutdrucksenkung unter Therapie XY
n
1
ˆ
x  n xi : Empirisches Stichprobenmittel ("µ")
i1
Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.
Welche Werte kommen für den unbekannten Parameter µ in Frage?
Unbekannter Erwartungswert µ=?
?
? ? ? ? ?? ? ? ? ?
µˆ  x 20
empirisches
Stichprobenmittel
―
―
―
10
―
―
0
30 mmHg
Konfidenzintervalle
Beispiel
µ: Erwartete Blutdrucksenkung unter Therapie XY
n
1
ˆ
x  n xi : Empirisches Stichprobenmittel ("µ")
i1
Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.
Welche Werte kommen für den unbekannten Parameter µ in Frage?
Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte,
die im Rahmen eines Signifikanztests für den unbekannten Parameter µ
nicht ausgeschlossen werden können.
Konfidenzintervalle
Beispiel
µ: Erwartete Blutdrucksenkung unter Therapie XY
n
1
ˆ
x  n xi : Empirisches Stichprobenmittel ("µ")
i1
Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.
Welche Werte kommen für den unbekannten Parameter µ in Frage?
H0: μ=30
30 mmHg
H0: μ=25
H0: μ=10
20
H0: μ=20
10
H0: μ=15
0
H0: μ=5
H0: μ=-5
H0: μ=-10
-10
H0: μ=-15
H0: μ=-20
-20
H0: μ=-25
H0: μ=-30
-30
H0: μ=0
Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte,
die im Rahmen eines Signifikanztests für den unbekannten Parameter µ
nicht ausgeschlossen werden können.
Menge aller
Tests mit nichtsignifikantem
Ergebnis
Konfidenzintervalle und Signifikanztests
Beispiel
µA: Erwartete Blutdrucksenkung unter Therapie A
µB: Erwartete Blutdrucksenkung unter Therapie B
(i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB
(ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB
-30
-20
-10
0
10
20
30 mmHg
Falls 0  KI
d.h. H0: μA-μB=0 kann nicht abgelehnt werden,
<=> H0: μA=μB kann nicht abgelehnt werden.
<=> kein signifikanter Unterschied zwischen beiden Therapien
(Andererseits können Unterschiede bis zu 20 mmHg (!)
ebenfalls nicht ausgeschlossen werden)
Konfidenzintervalle und Signifikanztests
Anderes Beispiel
µA: Erwartete Blutdrucksenkung unter Therapie A
µB: Erwartete Blutdrucksenkung unter Therapie B
(i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB
(ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB
-30
-20
-10
0
10
20
30 mmHg
Falls 0  KI
d.h. H0: μA-μB=0 wird verworfen,
<=> H0: μA=μB wird verworfen.
<=> signifikanter Unterschied zwischen beiden Therapien
(Trotzdem ist der Unterschied zwischen den Therapien hier
möglicherweise kleiner (!) als im vorigen Beispiel.)
Konfidenzintervalle bei binären Zielgrößen
Beispiel
r1: Lungenkrebsrate von Rauchern
r0: Lungenkrebsrate von Nichtrauchern
(i) Lösungsansatz im Rahmen eines Testproblems: H0: r1=r0 gegen H1: r1≠r0
(ii) Alternativer Ansatz: Konfidenzintervall des Relativen Risikos r1/r0
0
1
2
3
4
5
6
Falls 1  KI
d.h. H0: r1/r0=1 wird verworfen,
<=> H0: r1=r0 wird verworfen.
<=> signifikanter Unterschied zwischen Rauchern und Nichtrauchern
Fallstricke Statistischer Signifikanztests
1. Einführung
•
Tests zum Vergleich zweier Erfolgsraten
•
Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
p>0.05 =>
„Für H0“
„Nicht gegen H0“
Literatur
Eine Reihe von Beispielen…
Beispiel 1:
Das Relative Risiko für Lungenkrebs bei Passivrauchern
wurde in einer Studie geschätzt als:
RR = 1.35
Der p-Wert betrug p = 0,075.
Bei einer Irrtumswahrscheinlichkeit von a = 0.05 (oder 5%)
wird die Null-Hypothese (die besagt, dass keine Beziehung
zwischen Passivrauchen und Lungenkrebs besteht)
nicht verworfen, da p = 0.075 > 0.05 .
d.h.: auf dem 5%-Niveau statistisch nicht signifikant !
Linksventrikuläre Hypertrophie und Risiko *:
Männer und Frauen, 45 bis 64 Jahre,
Männer
RR
Frauen
95 %-KI
RR
95 %-KI
Tod
2.3
[1.5 ; 3.7]
1.5
[0.9 ; 2.6]
Tod durch HKK
3.2
[1.8 ; 5.7]
2.4
[1.1 ; 5.4]
AMI (F + NF)
alle
inzidente
1.7
2.2
[0.95;3.2]
[1.2 ; 4.3]
3.2
2.9
[1.3 ; 7.7]
[1.2 ; 7.4]
* adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese
Hense et al., 1998
LVH und Risiko *:
Männer und Frauen, 45 bis 64 Jahre,
Männer
HRR
95 %-KI
Frauen
HRR
95 %-KI
Tod
2.3 [1.5 ; 3.7]
1.5
[0.9 ; 2.6]
Tod durch HKK
3.2 [1.8 ; 5.7]
2.4
[1.1 ; 5.4]
AMI (F + NF)
alle
inzidente
1.7 [0.95;3.2]
2.2 [1.2 ; 4.3]
3.2
2.9
[1.3 ; 7.7]
[1.2 ; 7.4]
* adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese
Hense et al., 1998
Einige abschließende Beispiele
Epidemiologisches Maß
Signifikant?
Schätzwert 95%KI
Differenz von Mittelwerten:
5.5 mg/dl
[0.2 – 9.8]

Differenz von Prävalenzen:
3%
[-1% - 7%]

Differenz von Inzidenzraten:
0.002
[0.0016 - 0.0024]

Relatives Risiko:
2.45
[1.78 - 3.45]

Odds Ratio:
0.76
[0.43 - 1.12]

Fragen und Antworten
50 insulinpflichtige Diabetiker wurden mit 50 Nicht-Diabetikern
bezüglich des Auftretens von psychischen Störungen untersucht.
Diese waren bei den Diabetikern signifikant häufiger. Welcher der
folgenden Faktoren kommt als Erklärung für diese Unterschiede
wahrscheinlich nicht in Frage:
- Alter,
- Insulintherapie,
- Zufall,
- Diät,
- Diabeteskomplikationen.
Zufall
Fragen und Antworten
Boston Lyle Hospital 1938 – 1952
Inzidenz Retrolentaler Fibroplasie (RFL)
Frühgeborene
RLF
Jungen
260
17.3%
Mädchen
321
15.4%
Inzidenzdifferenz: 1.9%, 95%-KI [ -4.2 bis 8.0]; p = 0.62
Was besagt dieses Resultat?
- Die Inzidenz der RLF ist signifikant höher für Jungen.
- Geschlecht und Inzidenz der RLF sind in dieser Studie nicht assoziiert.
- Zufall kann die Inzidenzdifferenz allein nicht erklären.
- Das relative Risiko einer RLF für J ist signifikant verschieden von 1.
- Es besteht eine 62%ige Wahrscheinlichkeit, dass die Inzidenz
für Jungen größer ist als 1.9%.
Fragen und Antworten
In einer klinischen Studie wird ein innovatives Mittel A zur Blutdrucksenkung mit der bisherigen Standardtherapie B verglichen. Das neue
Medikament wird in zwei verschiedenen Patientengruppen jeweils in
unterschiedlicher Dosis vergeben (A1 bzw. A2). Beim Vergleich der
Therapien ergibt sich in einem zweiseitigen Signifikanztest der Gruppe
A1 versus B ein p-Wert von p=0.001; für den Vergleich A2 versus B
ergibt sich p=0.04.
Welche Information kann aus den angegebenen p-Werten abgelesen
werden?
- Therapie A1 ist erwiesenermaßen wirksamer als die Standardtherapie B.
- Therapie A2 ist erwiesenermaßen wirksamer als die Standardtherapie B.
- Die erwartete Blutdrucksenkung unter Ther. A1 ist größer als unter Ther. A2.
- Die Wirksamkeit der Therapien A1 und A2 unterscheidet sich signifikant.
- Keine der obigen Aussagen kann aus den p-Werten abgelesen werden.
Fragen und Antworten
Eine geplante klinische Studie soll möglichst zeit- und kostensparend
durchgeführt werden. Um das zu erreichen, wird folgendes Vorgehen
diskutiert. Zuerst werden 50 Patienten pro Therapiegruppe rekrutiert
und anhand eines Signifikanztests zum Niveau α=5% geprüft, ob sich
signifikante Therapieunterschiede nachweisen lassen. Gelingt das
(noch) nicht, so werden anschließend weitere 2x25 Patienten rekrutiert
und erneut getestet. Das Verfahren wird so lange fortgesetzt, bis der
p-Wert des Tests auf Ungleichheit beider Therapien signifikant ist.
Halten Sie ein solches Vorgehen für sinnvoll?
Nein, bei dem beschriebenen Vorgehen besteht ein multiples Testproblem!
In jedem einzelnen Test besteht eine 5%ige Wkt. eines falsch positiven
Ergebnisses. Das abschließende Urteil ist allerdings positiv, falls irgendeiner der einzelnen Test signifikant ist. Dadurch ist die Gefahr eines falsch
positiven Ergebnisses im abschließenden Urteil deutlich größer als 5%!
Fragen und Antworten
In einer klinischen Studie werden die Erfolgsraten r1 und r2 zweier
Therapien miteinander verglichen. Pro Therapiearm werden 10 Patienten rekrutiert und deren Daten ausgewertet. Dabei ergibt sich beim
Test auf Ungleichheit der beiden Erfolgsraten ein nicht signifikanter
p-Wert von p=0.08.
Interpretieren Sie das Testergebnis!
Was können Sie zur Power der Studie sagen?
Was für ein Konfidenzintervall des Therapieeffekts (Quotient der
Erfolgsraten r1 und r2) erwarten Sie?
Die Nullhypothese H0:r1=r2 kann nicht abgelehnt werden.
Das heißt nicht, dass damit ihre Gültigkeit bewiesen ist!
Aufgrund der kleinen Fallzahl hat die Studie erwartungsgemäß eine sehr
niedrige Power, d.h. es besteht eine große Gefahr eines Fehlers 2. Art.
Aus dem gleichen Grund wird das KI des Therapieeffekts erwartungsgemäß
sehr groß sein, d.h. die Größe des Effekts lässt sich nur schlecht abschätzen.
Herunterladen