Biometrisches Tutorial II

Werbung
Biometrisches Tutorial II
Datenaufbereitung / beschreibende Statistik
Statistisches Testen
Auswertungsverfahren
Statistische Analyse
Qualitative/Quantitative Merkmale
Die Wahl des gewählten statistischen Auswertungsverfahrens hängt von der Skala des Merkmals ab.
Qualitative Variable
- nominal: Kategorien ohne Anordnung (z.B. Blutgruppe)
- ordinal: Kategorien mit Anordnung (z.B. Tumor-Stadien)
Quantitative Variable
- diskret: ganze Zahlen (z.B. Zellzahl)
- stetig: reelle Zahlen (z.B. Blutdruck)
Binomialverteilung Bin(n,π)
Modell: n unabhängige Wiederholungen eines Experiments
mit binärem Ausgang ("Erfolg", "Misserfolg") und
konstanter Erfolgswahrscheinlichkeit π bei jeder
Wiederholung
X: Anzahl der Erfolge
n k
f (k ) = P( X = k ) =   ⋅ π (1 − π)n −k
k 
n
1 ⋅ 2 ⋅ ... ⋅ n
n!
  =
=
 k  1 ⋅ 2 ⋅ ... ⋅ k ⋅ 1 ⋅ 2 ⋅ ... ⋅ (n − k ) k! (n − k )!
"Binomialkoeffizient"
Binomialverteilung Bin(n,π)
Die Wahrscheinlichkeit für eine unerwünschte
Impfreaktion beträgt 5%, 10 Personen werden geimpft.
Fragen
Wie groß ist die Wahrscheinlichkeit dafür, dass es keine
unerwünschte Impfreaktionen gibt?
Wie groß ist die Wahrscheinlichkeit für genau zwei
unerwünschte Impfreaktionen?
Modell
Binomialmodell Bin(n, π) mit n = 10 und π=0.05
Binomialverteilung Bin(10,0.05)
Anzahl
AnzahlErfolge
Erfolge
Binomialverteilung Bin(10,0.5)
Anzahl Erfolge
Parameterschätzung
Binomialverteilung Bin(n,π)
Parameter
θ
ππ
Wahrscheinlichkeit
Wahrscheinlichkeit
Beobachtungen
x1,...,xn
0,0,1,1,0,1,...
0,0,1,1,0,1,...
Schätzer
)
θ( x 1 ,..., x n )
πˆ
==kk/ /nn
ˆ
πAnteil
Anteil
Konfidenzintervall
Um Anhaltspunkte bezüglich der Genauigkeit der
Schätzung zu gewinnen, konstruiert man aus den Daten
der Stichprobe ein so genanntes Konfidenzintervall
(oder Vertrauensbereich).
Das Konfidenzintervall überdeckt den unbekannten
Parameter mit einer Wahrscheinlichkeit von z.B. 95%.
Je größer der Stichprobenumfang ist,
desto schmaler ist das Konfidenzintervall.
Wahrscheinlichkeit für die Geburt eines Jungen
Quartal
Geschlecht
Jan.-Mär.
Apr.-Jun.
Jul.-Sep.
Okt.-Dez.
weiblich
202
184
213
170
männlich
206
205
224
227
total
408
389
437
397
π̂
0.505
0.527
0.513
0.572
(0.455-0.554) (0.476-0.557) (0.465-0.560)
Geschlecht
Jan.-Dez.
weiblich
769
männlich
862
total
1631
π̂
0.529
(0.504-0.553)
(0.521-0.621)
Ist die Wahrscheinlichkeit
für die Geburt eines Jungen
π̂ > 0.5?
Viele Fragen können auch mit Hilfe
eines KI beantwortet werden!
Nullhypothese
Die Nullhypothese impliziert üblicherweise das,
wovon der Wissenschaftler erwartet (oder
wünscht), dass es falsch ist. Sie repräsentiert
meistens Konservativismus bzw. die allgemeine
Meinung. Die Nullhypothese nicht zu verwerfen,
bedeutet nicht, dass sie wahr ist.
H0: Die Wahrscheinlichkeit für die Geburt eines Jungen
beträgt 50%.
Alternativhypothese
Die Alternativhypothese impliziert üblicherweise
das, wovon der Wissenschaftler erwartet (oder
wünscht), dass es wahr ist. Die
Alternativhypothese gilt als etabliert, wenn die
Nullhypothese verworfen wurde.
HA: Die Wahrscheinlichkeit für die Geburt eines Jungen
ist größer als 50%.
Statistisches Testen
Einseitig versus zweiseitig
HA
H0
ungleich (≠)
gleich (=)
zweiseitig
(ungerichtet)
größer (>)
höchstens (≤)
kleiner (<)
mindestens (≥)
einseitig
(gerichtet)
HA: Die Wahrscheinlichkeit für einen Jungen ist ungleich 50%.
HA: Die Wahrscheinlichkeit für einen Jungen ist größer/kleiner 50%.
Binomialtest
Ist die W‘keit für die Geburt eines Jungen größer als 50%?
Zufallsvariable
X∼Bin(n, π)
Hypothesen
H 0 : π ≤ 0 .5
Beobachtung
H A : π > 0 .5
10 Geburten, davon 8 Jungen
Teststatistik Binomialverteilung
Entscheidung H0 wird abgelehnt, wenn x > ? ist.
Wahrscheinlichkeit für die Geburt eines Jungen
Binomialverteilung unter H0
P(X = 8) + P(X = 9) + P(X =10)
0.045 + 0.01 + 0.001 = 0.056
kritischer
Wert
Annahmebereich
Anzahl der Jungen
Ablehnungsbereich
Statistische Analyse
Teststatistik
Unter H0 wird eine zum Test gehörige Wahrscheinlichkeitsfunktion berechnet.
Mit dieser Teststatistik kann jedes Ergebnis durch eine
Wahrscheinlichkeit unter H0 bewertet werden.
Folgt aus der Teststatistik, dass das Ergebnis unter H0
sehr unwahrscheinlich ist (z.B. < 5%), wird H0 abgelehnt.
Statistische Analyse
kritischer Wert
Die kritischen Werte werden so gewählt, dass das
Signifikanzniveau α des zugehörigen Tests höchstens
einen fest vorgegebenen Wert annimmt (z.B. 5 %).
Die Wahl der kritischen Werte hängt nur von der
Nullhypothese H0 ab, aber nicht von HA.
Sind die kritischen Werte einmal gewählt, hängt die
Power des Tests nur von HA ab.
Statistische Analyse
p-Wert
Der p-Wert ist die Wahrscheinlichkeit dafür, dass die
Teststatistik T den beobachteten oder einen noch
unwahrscheinlicheren Wert als tobs annimmt, wenn die
Nullhypothese wahr ist.
Er entspricht dem Signifikanzniveau, bei dem H0 gerade
eben verworfen würde.
H0
p
tobs
T
Statistische Analyse
mögliche Fehler
Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese
H0 verworfen wird, obwohl sie wahr ist.
Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese
H0 beibehalten wird, obwohl sie falsch ist.
Wahrheit
Entscheidung
H0
HA
H0 beibehalten
richtig
Typ-IIFehler
H0 verworfen
Typ-IFehler
richtig
Statistische Analyse
mögliche Fehler
Das Signifikanzniveau (α) eines Tests ist die
Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen.
Die Power (1-β) eines Tests ist die Wahrscheinlichkeit,
einen Typ-II-Fehler zu vermeiden.
Wahrheit
Entscheidung
H0
HA
H0 beibehalten
1-α
β
H0 verworfen
α
1-β
Statistische Analyse
Entscheidung
H0 wird getestet
verwerfe
H0
HA
HA wird angenommen
H0
verwerfe
H0 nicht
H0
?
Statistische Analyse
negative Ergebnisse
Negative Ergebnisse sind genauso wichtig wie positive
Ergebnisse, da sie das Unwissen verringern und auf neue
interessante Hypothesen oder Forschungsziele verweisen.
Sie sind auch notwendig, um zukünftiger Forschung in
einem bestimmten Gebiet die richtige Richtung zu weisen
(Publikationsbias).
Statistische Analyse
zwei qualitative Merkmale
Typischerweise wird in Fall-Kontroll-Studien der
Zusammenhang zwischen Exposition und Erkrankung
untersucht
Dazu wird retrospektiv an Individuen mit bekanntem
Erkrankungsstatus (Fall/Kontrolle) der Expositionsstatus
erhoben (Exposition ja/nein).
Herzinfarkt und Geschlecht
40 Infarktpatienten werden mit 40 Kontrollen verglichen
Zielgröße: Infarkt ja/nein
Einflussgröße: Geschlecht
Fragestellung: Ist die Wahrscheinlichkeit einen Infarkt zu
erleiden bei Männern und Frauen gleich?
Nullhypothese: Infarkt und Geschlecht sind unabhängig
Herzinfarkt und Geschlecht
Zielgröße
Infarkt (ja/nein)
Einflussgröße
Geschlecht (m/w)
Herzinfarkt und Geschlecht
Herzinfarkt und Geschlecht
männlich
Infarkt
n=40
Kein Infarkt
n=40
25 (62.2%)
[45.8%-77.7%]
28 (70.0%)
[53.5%-83.43%]
p
?
Herzinfarkt und Geschlecht
Nullhypothese Geschlecht und Infarkt sind unabhängig
X
Unter der Nullhypothese
erwartete Werte:
Y
0
1
Σ
m
25
26.5
28
26.5
53
w
15
13.5
12
13.5
27
Σ
40
40
80
Teststatistik
kritische Werte
χ2 =
∑ ∑
e ij =
n
m
i =1
j =1
o i+ ⋅ o + j
o ++
( o ij − e ij ) 2
e ij
Chi-Quadrat-Verteilung c1-α,ν
Herzinfarkt und Geschlecht
Nullhypothese Geschlecht und Infarkt sind unabhängig
X
Y
0
1
Σ
m
25
26.5
28
26.5
53
w
15
13.5
12
13.5
27
Σ
40
40
80
Teststatistik
kritische Werte
χ2 =
Unter der Nullhypothese
erwartete Werte:
e ij =
o i+ ⋅ o + j
o ++
53 ⋅ 40
=
= 26 . 5
80
(25 − 26.5 ) 2
26.5
+ ... = 0 . 503
c0.95,1=3.841 > 0.503 => H0 nicht ablehnen
χ2-Test
Y
1
X
...
1
...
n
o11
...
on1
...
...
...
o1m
...
onm
o1+
...
on+
Σ
o+1
...
o+m
o++
Nullhypothese
m
Σ
Unter der Annahme, dass
die Zeilen und Spalten
unabhängig sind, beträgt die
erwartete Zellhäufigkeit
e ij =
o i+ ⋅ o + j
o ++
H0: X und Y sind unabhängig
Teststatistik
χ2 =
kritische Werte
c1-α,ν
∑ ∑
n
m
i =1
j =1
( o ij − e ij ) 2
e ij
"Anzahl Freiheitsgrade" ν=(n-1)⋅(m-1)
Statistische Tests
nominale Daten
Studiendesign
zwischen Individuen
innerhalb von Individuen
zwei Gruppen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
χ2-Test
χ2-Test
(Fishers exakter
Test)
(Fishers exakter
Test)
McNemarTest
SymmetrieTest
Risikofaktoren für Herzinfarkt
HBDH
Zielgröße
Infarkt (ja/nein)
Blutzucker
GOT
Zigaretten
Diabetes
Alter
???
Cholesterin
Risikofaktoren für Herzinfarkt
40 Infarktpatienten werden mit 40 Kontrollen verglichen
Zielgröße: Infarkt ja/nein
Einflussgrößen: Geschlecht, Alter, Blutdruck, Diabetiker,
Cholesterin, Triglyzerid, HBDH, GOT,
Zigaretten pro Tag
Fragestellung: Welche Faktoren beeinflussen die
Wahrscheinlichkeit für einen Herzinfarkt?
Risikofaktoren für Herzinfarkt
Infarkt
n=40
Kein Infarkt
n=40
männlich
KI
25 (62.2%)
[45.8-77.7]
28 (70.0%)
[53.5-83.43]
0.478
Diabetes
3 (7.5%)
[…]
5 (12.5%)
[…]
0.456
Rauchen
23 (57.5%)
[…]
31 (77.5%)
[…]
0.056
diast. BD
?
93.63±9.1
?
Alter
54.0 ± 9.1
62.9 ± 10.4
?
BMI
?
?
?
…
…
…
p
Statistische Analyse
ein stetiges, normalverteiltes Merkmal
Normalverteilung N(µ,σ2) mit µ=E(X) und σ2 = Var(x)
f (x) =
1
σ 2π
e
−
( x −µ )2
2 σ2
Normalverteilung N(µ,σ2)
N(0,1)
N(1,1)
N(0,4)
N(0,0.25)
Parameterschätzung
Normalverteilung N(µ,σ2)
Parameter
θ
µ
Erwartungswert
Beobachtungen
x1,...,xn
1.23,4.81,7.55,...
Schätzer
)
θ( x 1 ,..., x n )
µ
ˆ=x
Stichprobenmittel
Wie repräsentativ ist die Kontrollgruppe?
Es soll geprüft werden, ob sich der erwartete diastolische
Blutdruck µ von den Kontrollpersonen vom erwarteten
Blutdruck µ0 = 80 mmHg bei Normalpersonen unterscheidet.
H0: µ=µ0
HA: µ≠µ0
Wie repräsentativ ist die Kontrollgruppe?
95%-KI: [90.73-96.52]
Statistische Analyse
Ein-Stichproben-t-Test
Zufallsvariable
X∼N(µ,σ2) beide Parameter unbekannt
Hypothesen
H0 :µ = µ0
Teststatistik
X − µ0
T =
⋅ n
S
HA :µ ≠ µ0
kritische Werte t1-α/2,n-1 (zweiseitig)
H 0 wird abgelehnt, falls | t | ≥ t1−α/2,n −1
(zweiseitig)
Statistische Analyse
Ein-Stichproben-t-Test
Statistische Analyse
kritische Werte
Ablehnungsbereich
Annahmebereich
Ablehnungsbereich
H0
α/2
α/2
cα/2
c1-α/2
=-2.23
=2.23
T
t = 9.5
Der p-Wert
Der p-Wert ist die Wahrscheinlichkeit dafür, dass die
Teststatistik T den beobachteten oder einen noch
unwahrscheinlicheren Wert als tobs annimmt, wenn die
Nullhypothese wahr ist.
Er entspricht dem Signifikanzniveau, bei dem H0 gerade
eben verworfen würde.
H0
p
tobs
T
Statistische Analyse
Verteilungsformen
30
30
25
25
20
20
15
15
10
10
5
5
0
10 - 20 20 - 30 30 - 40
40 - 50 50 - 60 60 - 70 70 - 80 80 - 90
0
10 - 20
20 - 30
symmetrisch
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
70 - 80
80 - 90
linkssteil
30
30
25
25
20
20
15
15
10
10
5
5
0
0
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
60 - 70
rechtssteil
70 - 80
80 - 90
10 - 20
20 - 30
30 - 40
40 - 50
50 - 60
bimodal
60 - 70
Ist der diast. Blutruck normalverteilt?
Statistische Analyse
zwei stetige, nicht normalverteilte Merkmale
Statistische Analyse
Box-Plot
möglicher
Ausreißer
kleinster Wert im
inneren Zaun
größter Wert im
inneren Zaun
Ausreißer
o
*
~
x0.25 ~
x0.50 ~
x0.75
innerer
Zaun
1.5⋅IQR
3⋅IQR
IQR
innerer
Zaun
1.5⋅IQR
3⋅IQR
äußerer
Zaun
Statistische Analyse
zwei stetige, nicht normalverteilte Merkmale
Behandlung von Depressionen
Zur Wirksamkeitsprüfung eines neuen Antidepressivums werden 10
klinisch depressive Patienten zufällig einer von zwei Gruppen
zugeordnet. Gruppe A (5 Patienten) bekommt für 6 Monate das neue
Medikament. Gruppe B bekommt ein Placebo. Am Ende der Studie
wird der Zustand jedes Teilnehmers von einem verblindeten
Psychiater auf einer Skala von 0 - 20 mit einem Score bewertet.
Patient
Score
A1 A2 A3 A4 A5 B1 B2 B3 B4 B5
11 15 7 8 12 3 4 9 2 5
H0: Die Verteilung des Depressionsscores ist unter Verum
die gleiche wie unter Placebo.
HA: Die Verteilung des Depressionsscores ist unter Verum
eine andere als unter Placebo.
Behandlung von Depressionen
Wilcoxon-Rangsummentest
Patient
Score
Rang
A1 A2 A3 A4 A5 B1 B2 B3 B4 B5
11 15 7 8 12 3 4 9 2 5
8 10 5 6 9 2 3 7 1 4
Patient
Rang
B4 B1 B2 B5 A3 A4 B3 A1 A5 A2
1 2 3 4 5 6 7 8 9 10
∑ R (A ) = 5 + 6 + 8 + 9 + 10 = 38
∑ R (B ) = 1 + 2 + 3 + 4 + 7 = 17
i
i
Teststatistik (maximale Rangsumme) W=38
kritischer Wert (zweiseitig) W0.975,5,5=37
H0 kann zum 5% Signifikanzniveau verworfen werden.
Risikofaktoren für Herzinfarkt
Infarkt
n=40
Kein Infarkt
n=40
M
KI
25 (62.2%)
[45.8-77.7]
28 (70.0%)
[53.5-83.43]
0.478
Diabetes
3 (7.5%)
[…]
5 (12.5%)
[…]
0.456
Rauchen
23 (57.5%)
[…]
31 (77.5%)
[…]
0.056
diast. BD
98 (95-105)*
93.63±9.1
[90.73-96.52]
0.012
Alter
54.0 ± 9.1
62.9 ± 10.4
<0.001??
BMI
26 (21.4-29.7)*
25 (21.7-27.4)*
0.32
…
…
…
* Erstes und drittes Quartil
p
Statistische Analyse
zwei normalverteilte Merkmale
Zufallsvariable Xa∼N(µa,σ2) und Xb∼N(µb,σ2)
Hypothesen
H0 : µ a = µ b H A : µ a ≠ µ b
Xa − Xb
⋅
Teststatistik T =
S pooled
Ablehnungsbereich
(zweiseitig)
na ⋅ nb
na + nb
T ≤ tα / 2,na +nb −2 oder T ≥ t1−α / 2,na +nb −2
(zweiseitig)
Statistische Analyse
zwei normalverteilte Merkmale
Risikofaktoren für Herzinfarkt
Infarkt
n=40
Kein Infarkt
n=40
männlich
KI
25 (62.2%)
[45.8-77.7]
28 (70.0%)
[53.5-83.43]
0.478
Diabetes
3 (7.5%)
[…]
5 (12.5%)
[…]
0.456
Rauchen
23 (57.5%)
[…]
31 (77.5%)
[…]
0.056
diast. BD
98 (95-105)*
93.63±9.1
[90.73-96.52]
0.012
Alter
54.0 ± 9.1
62.9 ± 10.4
<0.001
BMI
26 (21.4-29.7)*
25 (21.7-27.4)*
0.32
Blutzucker
96.9±25.26
96.6±45.3
0.98
* Erstes und drittes Quartil
p
Statistische Analyse
parametrische versus nicht-parametrisch
Viele statistische Tests machen implizite Annahmen
über die den Daten zu Grunde liegende Verteilung.
Solche Tests heißen "parametrisch".
Statistische Tests, die keine oder nur schwache
Annahmen über die den Daten zu Grunde liegende
Verteilung machen, heißen "nicht-parametrisch".
Statistische Analyse
parametrische versus nicht-parametrisch
Die meisten parametrischen Tests setzen voraus,
dass die Stichprobendaten normalverteilt sind.
Wird diese Annahme verletzt, so ist der Test
möglicherweise nicht "valide" (d.h. das
Signifikanzniveau ist falsch).
Viele parametrische Tests, insbesondere die für den
Vergleich von zwei oder mehr Gruppen, setzen die
Gleichheit der gruppenspezifischen Varianzen
voraus ("Homogenität der Varianzen").
Statistische Analyse
parametrische versus nicht-parametrisch
Parametrische Tests gewinnen mehr Information aus
Daten und haben daher für normalverteilte Daten
mehr Power als nicht-parametrische.
Im Fall der Normalität haben nicht-parametrische
Tests etwa 95% der Power des entsprechenden
parametrischen Tests.
Nichtparametrische Tests
nicht normalverteilte Daten
Studiendesign
zwischen Individuen
zwei Gruppen
WilcoxonRangsummenTest
innerhalb von Individuen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
KruskalWallis-Test
WilcoxonVorzeichenRangtest
Friedman-Test
Parametrische Tests
normalverteilte Daten
Studiendesign
zwischen Individuen
innerhalb von Individuen
zwei Gruppen
mehr als
zwei Gruppen
zwei
Messungen
mehr als zwei
Messungen
ZweiStichproben
t-Test
Varianzanalyse
(ANOVA)
EinStichproben
t-Test
ANOVA mit
Messwiederholungen
Herunterladen