2015_2_6_TutorialII_Ausdruck [Kompatibilitätsmodus]

Werbung
Biometrisches Tutorial II
EBM Evidenzgrade
eojvrepvj
Parameterschätzung
Statistisches Testen
Modellbildung
Effektmaße
Multiples Testproblem
Das Zentrum für klinische Studien Kiel
Statistische Analyse
zwei qualitative Merkmale
Ziel: Unterstützung (wissenschaftsinitiierter) klinischer Studien
Leistungen
Typischerweise wird in Fall-Kontroll-Studien der
Zusammenhang zwischen Exposition und Erkrankung
untersucht
1. Beratungsgespräche
• Fortbildungen + Beratungen, Biometrie
2. Planung klinischer Studien
3. Durchführung klinischer Studien
4. Abschluss klinischer Studien (Auswertungen, Berichte, Abmeldungen)
5. Fortbildungen
• GCP-Kurse, Prüfarztkurse nach AMG und MPG, Medical Writing,
Dazu wird retrospektiv an Individuen mit bekanntem
Erkrankungsstatus (Fall/Kontrolle) der Expositionsstatus
erhoben (Exposition ja/nein).
English for Investigators
3
Herzinfarkt und Geschlecht
Herzinfarkt und Geschlecht
40 Infarktpatienten werden mit 40 Kontrollen verglichen
Zielgröße: Infarkt ja/nein
Einflussgröße: Geschlecht
Fragestellung: Ist die Wahrscheinlichkeit einen Infarkt zu
erleiden bei Männern und Frauen gleich?
Nullhypothese: Infarkt und Geschlecht sind unabhängig
männlich
Universitätsklinikum Schleswig-Holstein ©2005
Infarkt
n=40
Kein Infarkt
n=40
25 (62.2%)
[45.8%-77.7%]
28 (70.0%)
[53.5%-83.43%]
p
Seite: 1
Herzinfarkt und Geschlecht
Statistisches Testen
Vorgehensweise
Nullhypothese Geschlecht und Infarkt sind unabhängig
X
Unter der Nullhypothese
erwartete Werte:
1
Σ
25
26.5
28
26.5
53
w
15
13.5
12
13.5
27
Σ
40
40
80
Y
0
m
Teststatistik
kritische Werte
χ2 =
e ij =
o i+ ⋅ o + j
o ++
53 ⋅ 40
=
= 26 . 5
80
(25 − 26.5 ) 2
26.5
+ ... = 0 . 503
Die in den Daten einer Stichprobe enthaltene Information
wird in der Teststatistik T, zusammengefasst.
Der Annahmebereich des Tests enthält alle Werte von T, bei
denen H0 beibehalten wird.
Der Ablehnungsbereich enthält alle Werte von T, bei denen
H0 verworfen wird.
Annahme- und Ablehnungsbereich werden von den
kritischen Werten begrenzt.
c0.95,1=3.841 > 0.503 => H0 nicht ablehnen
Herzinfarkt und Geschlecht
Herzinfarkt und Geschlecht
χ2-Test
Statistische Tests
Y
1
X
...
1
...
n
o11
...
on1
...
...
...
o1m
...
onm
o1+
...
on+
Σ
o+1
...
o+m
o++
Nullhypothese
m
Σ
nominale Daten
Unter der Annahme, dass
die Zeilen und Spalten
unabhängig sind, beträgt die
erwartete Zellhäufigkeit
e ij =
o i+ ⋅ o + j
Studiendesign
zwischen Individuen
o ++
zwei Gruppen
innerhalb von Individuen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
McNemarTest
SymmetrieTest
H0: X und Y sind unabhängig
Teststatistik
χ2 =
kritische Werte
c1-α,ν
n
m
i=1
j =1
∑ ∑
( o ij − e ij ) 2
χ2-Test
χ2-Test
e ij
(Fishers exakter
Test)
(Fishers exakter
Test)
"Anzahl Freiheitsgrade" ν=(n-1)⋅(m-1)
Universitätsklinikum Schleswig-Holstein ©2005
Seite: 2
Normalverteilung N(µ,σ2)
Statistische Analyse
ein stetiges, normalverteiltes Merkmal
Normalverteilung N(µ,σ2) mit µ=E(X) und σ2 = Var(x)
f (x) =
1
σ 2π
e
−
N(0,1)
N(1,1)
N(0,4)
N(0,0.25)
( x − µ )2
2 σ2
Parameterschätzung
Wie repräsentativ ist die Kontrollgruppe?
Normalverteilung N(µ,σ2)
Parameter
θ
Beobachtungen
x1,...,xn
µ
Erwartungswert
80,94,110,...
Schätzer
)
θ( x1 ,..., x n )
µ
ˆ=x
Stichprobenmittel
Es soll geprüft werden, ob sich der erwartete diastolische
Blutdruck µ von den Kontrollpersonen vom erwarteten
Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet.
H0: µ=µ0
Wie repräsentativ ist die Kontrollgruppe?
HA: µ≠µ0
Statistische Analyse
Ein-Stichproben-t-Test
Zufallsvariable
X∼N(µ,σ2) beide Parameter unbekannt
Hypothesen
H0 :µ = µ0
Teststatistik
T =
HA :µ ≠ µ0
(zweiseitig)
X − µ0
⋅ n
S
kritische Werte t1-α/2,n-1 (zweiseitig)
95%-KI: [90.73-96.52]
Universitätsklinikum Schleswig-Holstein ©2005
H 0 wird abgelehnt, falls | t | ≥ t1−α/2, n −1
Seite: 3
Statistische Analyse
Statistisches Testen
Ein-Stichproben-t-Test
Vorgehensweise
Ablehnungsbereich
Ablehnungsbereich
Annahmebereich
H0 verwerfen
H0 verwerfen
H0
α/2
α/2
H0 beibehalten
cα/2
c1-α/2
=-2.23
=2.23
T
t = 9.5
Statistisches Testen
Statistisches Testen
mögliche Fehler
p-Wert
Der p-Wert ist die Wahrscheinlichkeit dafür, dass die
Teststatistik T den beobachteten oder einen noch
unwahrscheinlicheren Wert als tobs annimmt, wenn die
Nullhypothese wahr ist.
Er entspricht dem Signifikanzniveau, bei dem H0 gerade
eben verworfen würde.
Das Signifikanzniveau (α) eines Tests ist die
Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen.
Die Power (1-β) eines Tests ist die Wahrscheinlichkeit,
einen Typ-II-Fehler zu vermeiden.
Wahrheit
Entscheidung
H0
HA
H0 beibehalten
1-α
β
H0 verworfen
α
1-β
Statistische Analyse
H0
p
tobs
T
Herzinfarkt und Blutdruck
zwei stetige Merkmale
40 Infarktpatienten werden mit 40 Kontrollen verglichen
Zielgröße: Infarkt ja/nein
Einflussgrößen: Blutdruck
Fragestellung: Beeinflusst der Blutdruck die
Wahrscheinlichkeit für einen Herzinfarkt?
Universitätsklinikum Schleswig-Holstein ©2005
Seite: 4
Ist der diast. Blutruck normalverteilt?
Statistische Analyse
Verteilungsformen
30
30
25
25
20
20
15
15
10
10
5
5
0
10 - 20 20 - 30 30 - 40
40 - 50 50 - 60 60 - 70 70 - 80 80 - 90
0
10 - 20
20 - 30
symmetrisch
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
70 - 80
80 - 90
linkssteil
30
30
25
25
20
20
15
15
10
10
5
5
0
0
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
rechtssteil
Statistische Analyse
30 - 40
70 - 80
80 - 90
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
bimodal
Behandlung von Depressionen
zwei stetige, nicht normalverteilte Merkmale
Zufallsvariablen
Hypothesen
X∼F, Y∼G
F, G stetige Verteilungen
Ho: F(z) = G(z)
HA: F(z+d) = G(z)
n
Teststatistik
kritische Werte
Wn =
∑ R (X_i )
Zur Wirksamkeitsprüfung eines neuen Antidepressivums
werden 10 klinisch depressive Patienten zufällig einer von
zwei Gruppen zugeordnet.
Gruppe 1 bekommt für 6 Monate das neue Medikament,
Gruppe 2 bekommt ein Placebo. Am Ende der Studie wird
der Zustand jedes Teilnehmers von einem verblindeten
Psychiater mit einem Score bewertet.
i =1
Wα/2,n und
W1-α/2,n
Howird abgelehnt, falls Wn>W1-α/2,n oder Wn<Wα/2,n
H0: Die Verteilung des Depressionsscores ist unter Verum
die gleiche wie unter Placebo.
HA: Die Verteilung des Depressionsscores ist unter Verum
eine andere als unter Placebo.
Behandlung von Depressionen
Statistische Analyse
Wilcoxon-Rangsummentest
zwei stetige, nicht normalverteilte Merkmale
Patient
Score
X1 X2 X3 X4 X5 Y1 Y2 Y3 Y4 Y5
11 15 7 8 12 3 4 9 2 5
Patient
Rang
Y4 Y1 Y2 Y5 X3 X4 Y3 X1 X5 X2
1 2 3 4 5 6 7 8 9 10
∑ R (A ) = 5 + 6 + 8 + 9 + 10 = 38
i
Teststatistik (maximale Rangsumme) W=38
kritischer Wert (zweiseitig) W0.975,5=37
H0 kann zum 5% Signifikanzniveau verworfen werden.
Universitätsklinikum Schleswig-Holstein ©2005
Seite: 5
Risikofaktoren für Herzinfarkt
40 Infarktpatienten werden mit 40 Kontrollen verglichen
Zielgröße
Infarkt (ja/nein)
HBDH
Blutzucker
Zigaretten
Zielgröße: Infarkt ja/nein
Einflussgrößen: Geschlecht, Alter, Blutdruck, Diabetiker,
Cholesterin, Triglyzerid, HBDH, GOT,
Zigaretten pro Tag
Diabetes
Einflussgröße
Blutdruck
GOT
Risikofaktoren für Herzinfarkt
Cholesterin
Fragestellung: Welche Faktoren beeinflussen die
Wahrscheinlichkeit für einen Herzinfarkt?
???
Risikofaktoren für Herzinfarkt
Statistische Analyse
zwei normalverteilte Merkmale
Infarkt
n=40
Kein Infarkt
n=40
M
25 (62.2%)
[45.8-77.7]*
28 (70.0%)
[53.5-83.43]*
0.478
Diabetes
3 (7.5%)
[2.7-19.5]*
5 (12.5%)
[5.6-26.2]*
0.456
Rauchen
23 (57.5%)
[42.6-71.5]*
31 (77.5%)
[61.5-89.2]*
0.056
diast. BD
98 (95-105)**
93.63±9.1
[90.73-96.52]*
0.012
p
Alter
54.0 ± 9.1
62.9 ± 10.4
?
BMI
26 (21.4-29.7)**
25 (21.7-27.4)**
0.32
Blutzucker
96.9±25.26
96.6±45.3
?
*95%-Konfidenzintervall
Zufallsvariable Xa∼N(µa,σ2) und Xb∼N(µb,σ2)
Hypothesen
H0 : µ a = µ b H A : µ a ≠ µ b
Teststatistik
T =
Xa − Xb
⋅
S pooled
(zweiseitig)
na ⋅ nb
na + nb
Ablehnungs- T ≤ t
α / 2,na +nb −2 oder T ≥ t1−α / 2,na +nb −2 (zweiseitig)
bereich
** Erstes und drittes Quartil
Statistische Analyse
Risikofaktoren für Herzinfarkt
zwei normalverteilte Merkmale
Infarkt
n=40
Kein Infarkt
n=40
M
25 (62.2%)
[45.8-77.7]*
28 (70.0%)
[53.5-83.43]*
0.478
Diabetes
3 (7.5%)
[2.7-19.5]*
5 (12.5%)
[5.6-26.2]*
0.456
Rauchen
23 (57.5%)
[42.6-71.5]*
31 (77.5%)
[61.5-89.2]*
0.056
diast. BD
98 (95-105)**
93.63±9.1
[90.73-96.52]*
0.012
Alter
54.0 ± 9.1
62.9 ± 10.4
<0.001
BMI
26 (21.4-29.7)**
25 (21.7-27.4)**
0.32
Blutzucker
96.9±25.26
96.6±45.3
0.98
*95%-Konfidenzintervall
Universitätsklinikum Schleswig-Holstein ©2005
p
** Erstes und drittes Quartil
Seite: 6
Statistische Analyse
Statistische Analyse
parametrische versus nicht-parametrisch
parametrische versus nicht-parametrisch
Viele statistische Tests machen implizite Annahmen
über die den Daten zu Grunde liegende Verteilung.
Solche Tests heißen "parametrisch".
Werden die Verteilungsannahmen verletzt, so ist
der parametrische Test möglicherweise nicht
"valide" (d.h. das Signifikanzniveau ist falsch).
Statistische Tests, die keine oder nur schwache
Annahmen über die den Daten zu Grunde liegende
Verteilung machen, heißen "nicht-parametrisch".
Parametrische Tests gewinnen mehr Information
aus Daten und haben daher für normalverteilte
Daten mehr Power als nicht-parametrische.
Im Fall der Normalität haben nicht-parametrische
Tests etwa 95% der Power des entsprechenden
parametrischen Tests.
Nichtparametrische Tests
Parametrische Tests
nicht normalverteilte Daten
normalverteilte Daten
Studiendesign
Studiendesign
zwischen Individuen
zwei Gruppen
WilcoxonRangsummenTest
innerhalb von Individuen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
KruskalWallis-Test
WilcoxonVorzeichenRangtest
Friedman-Test
Universitätsklinikum Schleswig-Holstein ©2005
zwischen Individuen
innerhalb von Individuen
zwei Gruppen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
ZweiStichproben
t-Test
Varianzanalyse
(ANOVA)
EinStichproben
t-Test
ANOVA mit
Messwiederholungen
Seite: 7
Statistische Modellbildung
Mortalität nach Herz-OP
ZG: Überlebt
(ja/nein)
... beinhaltet die Analyse des
funktionellen Zusammenhangs zwischen
Zielgröße (abhängige Variable) und Einflussgrößen
(unabhängigen Variablen),
einschließlich der Adjustierung für
unkontrollierbare Störgrößen.
Vor-OPs
(0,1,2, >2)
Alter
(Jahre)
Geschlecht
(m/w)
Lineare Regression
stetige Zielgröße
stetige Einflussgröße
Zufallsfehler
150
y = a + bx
140
Körpergewicht (Pfund)
Y:
X:
Ε:
Einfaches lineares Modelle
Für Ε wird im Allgemeinen eine
mit unbekanntem σ2 unterstellt.
N(0,σ2)-Verteilung
Y = a+b⋅x + Ε
130
120
110
100
90
62
Diese Modellgleichung nennt man lineares
Regressionsmodell, b heißt "Regressionskoeffizient"
exponentielle
Regression
y
68
70
72
Pearson Korrelationskoeffizient
y
logarithmische
Regression
y
66
Körpergröße (Zoll)
Regressionsmodelle
lineare
Regression
64
y
y
rXY ∼ +1
rXY ∼ -1
y
x
x
x
rXY ∼ 0
x
y =a+b⋅x
x
y =a+e-b⋅x
Universitätsklinikum Schleswig-Holstein ©2005
x
y =a+b⋅log(x)
perfekt
|rXY|=1.00
0.75≤|rXY|<1.00
stark
rXY misst die Stärke und
Richtung
des
moderat
0.50≤|r
XY|<0.75
linearen Zusammenhangs
zwischen
X und Y.
schwach
0.25≤|r
|<0.50
XY
Seite: 8
Pearson Korrelationskoeffizient
Spearman Rang-Korrelationskoeffizient
Signifikanztest
160
X∼N(µX,σX2), Y∼N(µY,σY2) alle unbekannt
H0 : rXY = 0
H0 : rXY ≤ 0
Hypothesen
HA : rXY ≠ 0
HA : rXY > 0
rXY = 0.85
ρXY = 1.00
120
80
(zweiseitig)
y
Zufallsvariable
(einseitig)
25
40
rXY = 1.00
ρXY = 1.00
20
0
Ablehnungsbereich
n−2
2
1 − r̂XY
T ≤ tα / 2,n−2
oder
T ≥ t1−α,n−2
(einseitig)
15
-40
-1
1
2
3
4
x
T ≥ t1−α / 2,n−2
(zweiseitig)
5
6
10
5
0
0
5
10
15
20
25
rg[x]
Multiples lineares Modelle
Y:
X1,...,Xk:
Ε:
0
rg[y]
T = r̂XY ⋅
Teststatistik
stetige Zielgröße
Einflussgrößen
Zufallsfehler
Für Ε wird im Allgemeinen eine N(0,σ2)-Verteilung mit unbekanntem
σ2 unterstellt.
Y = a + b1 x1 + b 2 x 2 + ... + bk x k + Ε
Multiple lineare (und andere) Modelle erlauben die Schätzung der
Regressionskoeffizienten bi unter Berücksichtigung von
Störgrößen ("Adjustierung").
Verallgemeinertes lineares Modelle
Y:
X1,...,Xk:
G:
stetige Zielgröße
Einflussgrößen
Linkfunktion
G[E(Y)] = a + b1 x 1 + b 2 x 2 + ... + bk x k
für eine dichotome Zielgröße Y gilt:
E(Y) = 0⋅P(Y=0)+1⋅P(Y=1) = P(Y=1) =π
Logistische Regression
Verallgemeinertes Lineares Modell mit "logit" als Link-Funktion
6
4
logit(x)
2
0
-2
logit(x) = ln(
-4
x
)
1−x
-6
0.0
0.2
0.4
0.6
0.8
1.0
x
logit(π) = a + b1 x1 + b 2 x 2 + ... + bk x k
Universitätsklinikum Schleswig-Holstein ©2005
Seite: 9
Ergebnisse Mortalität nach Herz-OP
Logistische Regression
gestorben
n=31
überlebt
n=969
weiblich
15 (51.6%)
705 (72.8%)
keine Vor-OP
1
2
>2
20 (64.5%)
4 (12.9%)
2 (6.5%)
5 (16.1%)
775 (80%)
114 (11.8%)
26 (2.7%)
54 (5.6%)
Alter1
75 (70-80)
67 (56-73)
OR
p
0.787
[0.67-0.92]
0.03
1.221
[1.14-1.28]
<0.001
1.023
[1.02-1.03]
< 0.001
G[E(Y)] = -4.792 - 0.239x 1 + 0.023x 2 + 0.192x 3
Effektmaße
Effektmaße
in Fall-Kontroll- und Kohortenstudie
Kohortenstudie: Relatives Risiko
betroffen
nicht
betroffen
gesamt
betroffen
nicht
betroffen
gesamt
exponiert
a
b
a+b
exponiert
a
b
a+b
nicht exponiert
c
d
c+d
nicht exponiert
c
d
c+d
gesamt
a+c
b+d
n
gesamt
a+c
b+d
n
Aus den Inzidenzen
A
a
≈ e
a + b Ne
folgt das relative Risiko
und
c
A
≈ n
c + d Nn
a /(a + b) ˆγ e
=
=ˆ
ρ
c /(c + d) ˆγ n
Effektmaße
Effektmaße
Fall-Kontroll-Studie: Odds-Ratio
in Fall-Kontroll- und Kohortenstudie
betroffen
nicht
betroffen
gesamt
exponiert
a
b
a+b
nicht exponiert
c
d
c+d
gesamt
a+c
b+d
n
OR =
Wenn die Risiken γe und γn "hinreichend klein" für die
gewählte Zeiteinheit sind, d.h. höchstens ein paar Prozent
betragen, dann gilt
Es lässt sich „nur“ das Chancenverhältnis berechnen
a /c
Ae / An
ˆγ /(1 − ˆγ e )
≈
= ... = e
= OR
b / d ( Ne − A e ) /(Nn − A n )
ˆγ n /(1 − ˆγ n )
Universitätsklinikum Schleswig-Holstein ©2005
γ e /(1 − γ e )
γ n /(1 − γ n )
OR =
γ e /(1 − γ e ) γ e
≈
=ρ
γ n /(1 − γ n ) γ n
Seite: 10
Effektmaße
Multiples Testen
Leukämie bei Kautschuk-Fabrikarbeiter
Problemstellung
Wenn mehrere Nullhypothesen gleichzeitig jeweils zum
gesamt
betroffen nicht
betroffen
exponiert
7
nicht exponiert
gesamt
OR =
Signifikanzniveau 5% getestet werden, dann kann die
7 / 51
= 20.60
11 / 1651
Wahrscheinlichkeit, mindestens eine wahre
11
18
51
1651
1702
95%KI: 7.77 - 55.15
58
1662
1720
P < 0.001 Chi-Quadrat-Test
als 5% sein.
17/8728
= 21.84
1/11214
P(mindestens eine NP fälschlicherweise ablehnen)=
gesamt
betroffen nicht
betroffen
ρ̂ =
Nullhypothese fälschlicherweise zu verwerfen α*, sehr viel größer
Beispiel: 6 Nullhypothesen (NP)
17
8711
8728
nicht exponiert
1
11213
11214
95%KI: 2.89 - 164.02
gesamt
18
19924
19942
P < 0.001 Chi-Quadrat-Test
exponiert
1-P(keine NP fälschlicherweise ablehnen)
= 1-0.956 = 0.265 > 0.05
Naturheilmittel gegen Warzen
Multiples Testen
Bonferroni-Korrektur
Fünf Naturheilmittel wurden in randomisierten, doppelt verblindeten
und placebokontrollierten Studien an jeweils 100 Patienten
hinsichtlich ihrer heilenden Wirkung bei Fingerwarzen untersucht.
Teeblätter
Besprechen
ja
nein
17
33
Verum
Placebo 15
35
Verum
χ2=0.184 (p=0.668)
ja
nein
25
25
Verum
Placebo 18
32
χ2=1.199 (p=0.157)
Ringelblume
Pendel
ja
nein
ja
nein
9
41
29
21
Placebo 18
32
Verum
Placebo 14
Verum
36
χ2=1.412 (p=0.235)
Werden k Nullhypothesen getestet, so gilt
Tarot
ja
nein
14
36
Placebo 12
38
α* ≤ n
k ⋅ α test
FWER
Wird αtest=α/n gewählt, so folgt daraus
χ2=0.200 (p=0.648)
FWER
α* ≤ kn ⋅ α test = n
k⋅
BINGO!
Carlo Bonferroni
(1892-1960)
α
=α
k
n
χ2=4. 857 (p=0.028)
Naturheilmittel gegen Warzen
Damit α* höchstens 5% ist, muss das testspezifische
Signifikanzniveau nach Bonferroni-Korrektur
αtest=0.05/5=0.01 betragen, wozu ein kritischer Wert von
χ20.99,1=6.635 gehört.
Teeblätter
χ2=0.184 (p=0.668)
Besprechen
χ2=1.999 (p=0.157)
Tarot
χ2=0.200 (p=0.648)
Ringelblume
χ2=1.412 (p=0.235)
Pendel
χ2=4.857 (p=0.028)
Damit α* von höchstens 5% eingehalten wird,
kann keine der H0 verworfen werden.
Universitätsklinikum Schleswig-Holstein ©2005
Statistisches Testen
Was man nicht tun sollte!
1. den Umfang einer Stichprobe so lange vergrößern, bis sich ein
"signifikantes" Ergebnis einstellt
2. Daten nach auffälligen Resultaten durchsuchen und diese
nachträglich für "signifikant" erklären.
3. auf Daten so lange verschiedene Tests anwenden, bis einer davon
ein "signifikantes" Ergebnis liefert
4. das Signifikanzniveau nachträglich so an das Ergebnis anpassen,
dass letzteres gerade eben "signifikant" wird
5. ein und dasselbe Experiment so lange wiederholen, bis es zu
einem "signifikanten" Ergebnis führt
6. einem statistisch signifikanten Ergebnis automatisch auch
wissenschaftliche Signifikanz zuschreiben
Quelle: R. Hilgers, P. Bauer, V. Schreiber (2002) Einführung in die Medizinische Statistik
Seite: 11
Herunterladen