Statistische Tests

Werbung
Motivation
ein statistischer Test steht im Zentrum so gut wie jeder klinischen oder
epidemiologischen Studie
L6: Statistische Tests
Verena Hoffmann
IBE
Institut für medizinische Informationsverarbeitung,
Biometrie und Epidemiologie
Email: [email protected]
Um eine wissenschaftlich Theorie beispielsweise in einer Doktorarbeit
zu prüfen, braucht man ein Grundverständnis von statistischen Tests
und deren Auswahl
Um auf dem Stand der Wissenschaft zu bleiben, müssen auch
praktizierende Ärzte beurteilen können, ob Tests in Publikationen
korrekt angewandt wurden, um die Verlässlichkeit der Ergebnisse (z.B.
zu neuen Behandlungsmethoden) einschätzen zu können
IBE – Statistische Tests
IBE – Statistische Tests
Lernziele
Hypothesenformulierung
Hypothesenformulierung
Prinzip der statistischen Tests
Kriterien zur Auswahl eines statistischen Test
- Skalenniveau
- Parametrische vs. nichtparametrische Test
- Verbundene vs. unverbundene Stichproben
Theoretische Einsichten führen zu Behauptungen (Hypothesen) über die
Beschaffenheit einer Population (Grundgesamtheit), deren Richtigkeit
sich dann in empirischen Untersuchungen an Stichproben bestätigen
muss. (Bortz 1979)
Forschungshypothesen sollten aus
- Voruntersuchungen
- eigenen Überlegungen
- aus Theorien
Signifikanzniveau α / Einseitiger oder Zweiseitiger Test
Teststatistiken verschiedener Tests
p-Wert
abgeleitet werden. Sie leisten einen umso größeren Beitrag zur Stützung
kausaler Erklärungsansätze je stärker sie eine schlüssige und eindeutige
Ergebnisinterpretation vorschreiben.
Die Nullhypothese H0 nimmt stets an, dass es keinen Effekt gibt.
Die Gegenhypothese H1 ist das exakte Gegenteil von H0.
IBE – Statistische Tests
IBE – Statistische Tests
Hypothesenformulierung
Beispiel: Rauchen ➠ Lungenkrebs
Grundlage: Zigaretten enthalten Teer. Teer ist als
krebserregender Stoff bekannt.
Statistische Testtheorie
Fragestellung
Mögliche Hypothesen:
H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig wie Patienten
ohne Lungenkrebs.
H1: Patienten mit Lungenkrebs rauch(t)en häufiger als Patienten ohne
Lungenkrebs.
► Design: z.B. Querschnittsstudie (Fallkontrollstudie)
H0: Raucher unterscheiden sich von Nichtrauchern in der Entwicklung von
Lungenkrebs nicht.
H1: Raucher entwickeln häufiger Lungenkrebs als Nichtraucher.
► Design: Kohortenstudie
IBE – Statistische Tests
IBE – Statistische Tests
Statistische Testtheorie
Statistische Testtheorie
Fragestellung
Hypothesen
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
IBE – Statistische Tests
IBE – Statistische Tests
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Statistische Testtheorie
Fragestellung
Hypothesen
Grundgesamtheit
H0
H1
Grundgesamtheit
Stichprobe
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
IBE – Statistische Tests
Statistische Testtheorie
Fragestellung
Hypothesen
IBE – Statistische Tests
Testentscheidung
Mit Hilfe eines geeigneten Tests kann ermittelt werden, welches Ergebnis
unter der Nullhypothese zu erwarten wäre.
Weichen die empirischen Ergebnisse zu sehr von den unter der
Nullhypothese zu erwartenden Ergebnissen ab, kann die Nullhypothese
abgelehnt werden.
H0
H1
Grundgesamtheit
► H1 ist dann statistisch signifikant
Stichprobe
CAVE: Das Gegenteil gilt nicht! Man kann sich nicht aktiv für H0
entscheiden. Man kann nur feststellen, dass H0 nicht abgelehnt
werden kann.
Teststatistik (zum Überprüfen der Hypothesen
Begriffe wie „beweisen“ oder „wahr sein“ sind für die Ergebnisse
statistischer Tests unzutreffend. Es wird immer mit Wahrscheinlichkeiten
gearbeitet.
Testentscheidung
IBE – Statistische Tests
IBE – Statistische Tests
Testentscheidung
Statistische Testtheorie
Wenn H0 abgelehnt wird ….
Fragestellung
H0:Die Menge der gerauchten Zigaretten steht in keinem
Zusammenhang mit dem Lungenkrebsrisiko.
Hypothesen
…kann das exakte Gegenteil…
H1: Die Menge der gerauchten Zigaretten steht in Zusammenhang
mit dem Lungenkrebsrisiko.
…immer noch viele Hypothesen enthalten…
H1: Das Lungenkrebsrisiko steigt mit der Zahl der gerauchten
Zigaretten.
H1: Wenn mehr Frauen rauchen, wird Lungenkrebs auch bei Frauen
häufiger.
H0
H1
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
etc….
Rückschluss
Testentscheidung
IBE – Statistische Tests
IBE – Statistische Tests
Statistische Testtheorie
Signifikanzniveau α: Die Irrtumswahrscheinlichkeit
Ein 100% richtiges Ergebnis erhält man nur durch Kenntnisse über die
Grundgesamtheit.
Fragestellung
Hypothesen
Die Fehlerwahrscheinlichkeit wird über das Signifikanzniveau α
kontrolliert.
H0
H1
Testentscheidung
Realität
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
Testentscheidung
IBE – Statistische Tests
Rückschluss
H0 richtig
Immer
korrekt?
H1 richtig
H0 beibehalten
korrekte Entscheidung
für H1
Fehler 1. Art
Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α
Fehler 2. Art
korrekte Entscheidung
Wahrscheinlichkeit = β
Wahrscheinlichkeit = 1-β
IBE – Statistische Tests
Signifikanzniveau α
Auswahl eines geeigneten Tests
Folgende Fragen sollte man sich stellen:
1. Welche Merkmalstypen liegen vor?
Das Signifikanzniveau α wird auch als „Patientenrisiko“ bezeichnet
2. Ist eine Verteilungsannahme gerechtfertigt?
3. Handelt es sich um eine verbundene oder eine unverbundene
Stichprobe?
Bsp.: Medikamentenprüfung
α ist das Risiko des Patienten mit einer neuen Therapie mit unbekannten
Langzeitfolgen etc. behandelt zu werden, obwohl es keinen Unterschied
zwischen der neuen Therapie und der Standardtherapie gibt
4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert?
5. Möchte ich einseitig oder zweiseitig testen?
6. Welches Signifikanzniveau ist geeignet?
Meist ist α=5% oder α=1%
IBE – Statistische Tests
IBE – Statistische Tests
Merkmalstypen
Verteilungsannahme
Diskret: endlich viele abzählbare Ausprägungen (z.B. Zigaretten)
Häufig liegen den erhobenen Daten bestimmte Verteilungen zu Grunde:
Stetig: alle Werte eines Intervalls sind mögliche Ausprägungen (z.B.
Körpergewicht)
bei kardinalskalierten Daten ist es häufig eine Normalverteilung. Die
Daten sind dann symmetrisch um einen Mittelwert verteilt und gleichen
einer Gauss‘schen Glockenkurve
Nominalskalierung: die Ausprägungen sind Namen oder Kategorien, die
nicht sinnvoll geordnet werden können (z.B. Religion, Geschlecht,
Verwendungszweck)
Ordinalskalierung: die Ausprägungen können geordnet werden, aber ihre
Abstände sind nicht interpretierbar (z.B. Schulnoten)
Kardinalskala: Ausprägungen sind Zahlen, Interpretation der Abstände ist
möglich (z.B. Gewicht)
Qualitataiv: endlich viele Ausprägungen, höchstens ordinalskaliert
Quantitativ: Ausprägungen geben ein Ausmaß wieder
IBE – Statistische Tests
beim Vergleich von Anteilen kann eine Binomialverteilung zu Grunde
gelegt werden
Tests denen eine Verteilungsannahme zu Grunde liegt bauen auf deren
Parametern auf
- Bei Normalverteilung auf dem Mittelwert µ und der Varianz σ2
- Bei Binomialverteilung auf der Wahrscheinlichkeit p und dem
Stichprobenumfang n
Tests die auf solchen Verteilungsannahmen beruhen nennt man
parametrisch
IBE – Statistische Tests
Verteilungsannahme
Verbundene oder unverbundene Stichprobe
Unverbundene Stichprobe: Vergleich von unabhängigen Individuen
Manchmal sind Verteilungsannahmen nicht gerechtfertigt oder die den
Daten zu Grunde liegende Verteilung ist unbekannt
Bsp.: zwei Therapien sollen verglichen werden, dazu erhält ein Teil der
Probanden Therapie A, der andere Teil Therapie B
Verbundene Stichprobe: mehrere Beobachtungen kommen von
derselben Beobachtungseinheit
Daher können auch keine Parameter geschätzt werden
Es kommen dann nicht-parametrische Tests zum Einsatz, deren
Teststatistiken nicht auf Verteilungen beruhen
Bsp.: Die Wirksamkeit einer Lotion soll auf trockener und feuchter Haut
getestet werden. Dazu wird sie bei jeweils einem Probanden auf trockener
und feuchter Haut getestet.
► von jedem Patienten liegt ein Datenpaar vor
IBE – Statistische Tests
IBE – Statistische Tests
Welche Tests für welche Merkmalstypen?
Folgende Fragen sollte man sich stellen:
Merkmalstypen
nominal
ordinal
z.B. Geschlecht
z.B. UAW
(WHO-Grad)
1. Welche Merkmalstypen liegen vor?
quantitativ
qualitativ
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
zensiert
z.B. Überlebenszeit
z.B.
χ2-Test
z.B.
Wilcoxon-Test
2. Ist eine Verteilungsannahme gerechtfertigt?
3. Handelt es sich um eine verbundene oder eine unverbundene
Stichprobe?
4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test
fordert?
5. Möchte ich einseitig oder zweiseitig testen?
Normalverteilungsvoraussetzung erfüllt ?
nein
Auswahl eines geeigneten Tests
6. Welches Signifikanzniveau ist geeignet?
ja
z.B.
t-Test, F-Test
z.B.
Logrank-Test
IBE – Statistische Tests
Auswahl eines geeigneten Tests
Einseitiger oder zweiseitiger Test
Folgende Fragen sollte man sich stellen:
Vergleich von Therapie A mit Therapie B
1. Welche Merkmalstypen liegen vor?
2-seitig: Falls für die Richtung des Unterschieds in der Wirksamkeit keine
(ausreichende) Evidenz vorliegt
2. Ist eine Verteilungsannahme gerechtfertigt?
3. Handelt es sich um eine verbundene oder eine unverbundene
Stichprobe?
4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert?
5. Möchte ich einseitig oder zweiseitig testen?
6. Welches Signifikanzniveau ist geeignet?
Nullhypothese H0: Die Therapien sind gleich wirksam
Alternativhypothese H1: Die Therapien sind unterschiedlich
wirksam
1-seitig: Falls die Richtung des Unterschieds in der Wirksamkeit bekannt
ist
Nullhypothese H0: Therapie A ist höchstens so wirksam wie
Therapie B
Alternativhypothese H1: Therapie A ist wirksamer als B
IBE – Statistische Tests
IBE – Statistische Tests
Auswahl eines geeigneten Tests
Anwendungen
Folgende Fragen sollte man sich stellen:
Chi2 – Test
1. Welche Merkmalstypen liegen vor?
t-Test
2. Ist eine Verteilungsannahme gerechtfertigt?
Wilcoxon-Rangsummen-Test
3. Handelt es sich um eine verbundene oder eine unverbundene
Stichprobe?
Kaplan-Meier-Verfahren und Log-Rank-Test
4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert?
5. Möchte ich einseitig oder zweiseitig testen?
6. Welches Signifikanzniveau ist geeignet?
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 1
Beispiel 1
FRAGE:
FRAGE:
Entspricht das Verhältnis Männer : Frauen in diesem Kurs dem
Geschlechtsverhältnis in der Bevölkerung (1:1)?
Entspricht das Verhältnis Männer : Frauen bei den Medizinstudenten an
der LMU dem Geschlechtsverhältnis in der Bevölkerung (1:1)?
HYPOTHESEN:
H0: Gleich viele Frauen und Männer studieren Medizin
H1: Das Geschlechtsverhältnis ist unausgeglichen
IBE – Statistische Tests
IBE – Statistische Tests
Welche Tests für welche Merkmalstypen?
FRAGE:
Merkmalstypen
quantitativ
qualitativ
nominal
ordinal
z.B. Religion
z.B. UAW
(WHO-Grad)
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
zensiert
z.B. Überlebenszeit
Entspricht das Verhältnis Männer : Frauen bei den Medizinstudenten an
der LMU dem Geschlechtsverhältnis in der Bevölkerung (1:1)?
HYPOTHESEN:
H0: Gleich viele Frauen und Männer studieren Medizin
H1: Das Geschlechtsverhältnis ist unausgeglichen
DATEN:
Normalverteilungsvoraussetzung erfüllt ?
nein
z.B.
χ2-Test
Beispiel 1
z.B.
Wilcoxon-Test
bm=___
bw=___
ja
z.B.
t-Test, F-Test
IBE – Statistische Tests
z.B.
Logrank-Test
Welche Frage muss der Test beantworten?
IBE – Statistische Tests
Beispiel 1
Beispiel 1
Wie weit dürfen die beobachteten Daten vom Verhältnis 1:1 abweichen,
damit diese Abweichung noch als zufällig gelten kann?
2. Abweichung der empirischen Werte vom Erwartungswert quantifizieren
(bw − e) 2 (bm − e) 2
+
χ =
e
e
Antwort gibt der Chi2-Test
2
Berechnung: 1. Erwartungswert berechnen für Annahme:
Gleichverteilung bzw. H0
χ 2 =____
bw +bm
2
e=
e = ___
IBE – Statistische Tests
Beispiel 1
Beispiel 1
Tabelle: 5%-, 1%- und 0,1%-Schranken der χ2-Verteilung
3. Testentscheidung
Entscheidungsregel: lehne H0 ab, wenn
FG
5%
1%
0,1%
1
3,84
6,63
10,83
2
5,99
9,21
13,82
3
7,81
11,34
16,27
4
9,49
13,28
18,47
5
11,07
15,09
20,52
2
2
χ berechnet
≥ χ (df ,α )
(Empirisch )
____ ≥ 3,84
Alle Werte >= 3,84 weichen so stark von der Gleichheitsannahme ist, dass
H1 zum Signifikanzniveau 5% signifikant ist.
Beispiel 2
Beispiel 2
Vergleich einer Standardtherapie mit einer neuartigen Therapie
Therapie
nein
ja
Standard
22
Neu
Σ
Σ
H0:
Die Heilungsraten sind von der Behandlung
unabhängig.
128
150
H1:
Die Heilungsraten hängen von der Therapie ab.
5
95
100
27
223
250
Heilungsrate Standard:
128 / 150
Heilungsrate Neu:
95 / 100
Frage:
Ist die Neue Therapie wirklich besser ?
(85,3%)
(95%)
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 2
a
Standard
Neu
Σ
a
c
22
5
27
ja
b
16,2
d
d
2
16 , 2
nein
c
2
2
2
2
(
22 − 16 , 2 ) (128 − 133 ,8 ) (5 − 10 ,8 ) (95 − 89 , 2 )
+
+
+
χ =
Erwartete Werte für jede Zelle berechnen:
Therapie
b
150
95
100
223
250
IBE – Statistische Tests
10 ,8
89 , 2
Σ
128
150
= 27 ⋅ 0,6 = 16,2
Für Zelle a: a = 27 ⋅
250
133 ,8
Unter H0 werden von den 27 geheilten
Personen 60% in der Standardgruppe
erwartet, da auch 60% der Patienten
insgesamt in der Standardgruppe sind
χ 2 = 2,08+0,25+3,11+ 0,38
χ 2 =5,82
2
2
χ empirisch
= 5,82 ≥ 3,84 = χ theoretisc
h
H0 kann abgelehnt werden. Die Heilungsraten hängen von der Therapie ab.
Voraussetzungen für den Chi2-Test
Beispiel 3
Blutzuckerspiegel von 18 Patienten mit leichter und mittlerer Diabetes
Patienten mit leichter Diabetes:
130, 140, 150, 130, 80,130, 180, 90, 170, 100
1.
Unabhängigkeit der Beobachtungen
2.
Erwartungswerte > 5
3.
Eindeutige Zuordenbarkeit
Patienten mit mittlerer Diabetes:
130, 170, 180, 160, 140,170, 210, 120
Nullhypothese H0: Der Blutzuckerspiegel unterscheidet sich
zwischen den beiden Gruppen nicht
Alternativhypothese H1: Der Blutzuckerspiegel unterscheidet
sich zwischen den beiden Gruppen
IBE – Statistische Tests
IBE – Statistische Tests
Welche Tests für welche Merkmalstypen?
Beispiel 3
Leichte Diabetis
180
Antwort auf die Frage liefert der t-Test für
unverbundene Stichproben
quantitativ
qualitativ
nominal
ordinal
z.B. Religion
z.B. UAW
(WHO-Grad)
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
zensiert
z.B. Überlebenszeit
160
Voraussetzungen:
140
1. Daten sind normalverteilt (Überprüfung
mit QQ-Plot, Histogramm oder ShapiroWilk-Test)
leicht
Merkmalstypen
120
100
2. Die Varianzen der beiden Stichproben
sind gleich (Überprüfung durch F-Test)
80
-2.0
-1.5
-1.0
-0.5
0
0.5
1.0
1.5
2.0
Normale Quantile
Mittlere Diabetis
220
Normalverteilungsvoraussetzung erfüllt ?
nein
z.B.
Wilcoxon-Test
ja
z.B.
t-Test, F-Test
180
mittel
z.B.
χ2-Test
200
z.B.
Logrank-Test
160
140
IBE – Statistische Tests
IBE – Statistische Tests
120
-1.5
-1.0
-0.5
0
Normale Quantile
0.5
1.0
1.5
Beispiel 3
Beispiel 3
Der t-Test beruht auf dem Vergleich der Mittelwerte der beiden Gruppen
Benötigt werden:
Träfe H0 zu, wäre eine Differenz von δ= 0 zu erwarten
Stichprobenumfänge: nl=10 und nm=8
Wir wollen einen zweiseitigen Test durchführen und als Signifikanzniveau wird
α= 0,05 gewählt
Für die Gruppen mit leichter und mittlerer Diabetes werden die Mittelwerte und
die Stichprobenvarianzen berechnet
Das Maß der Abweichung des beobachteten Mittelwertes vom erwarteten
Mittelwert ist t:
t=
Mittelwerte:
xl =
Stichprobenvarianzen:
1
nl
nl
∑x
li
i =1
mit
1 1  2
 +  s
 nl nm 
s2 =
(nl − 1) sl2 + ( nm − 1) sm2
( nl + nm − 2)
außerdem s2:
s2 =
1
nm
nm
∑x
mi
= 160
i =1
1 nl
(xli − xl )2 = 1066,70
s =
∑
nl − 1 i =1
2
l
sm2 =
xl − xm
= 130 und xm =
1 nm
2
∑ (xmi − xm ) = 857,32
nm − 1 i =1
(nl −1) sl2 + (nm −1) sm2 9 *1066,67 + 7 * 857,31
=
= 975,08
(nl + nm − 2)
16
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 3
Beispiel 3
Berechnung der Teststatistik:
t=
xl − xm
1 1  2
 +  s
 nl nm 
=
130 − 160
 1 1
 +  975,08
 10 8 
=
− 30
= −2,03
219,39
P(Z < -2,12) = 0,025
= α/2
Wir testen zweiseitig zum Niveau α=5%
Z = -2,12
P(Z > 2,12) = 0,025
= α/2
Dichte t16Verteilung
Nun vergleichen wir den berechneten t-Wert mit dem Wert der t-Verteilung
bei n+m-2=16 Freiheitsgraden
IBE – Statistische Tests
IBE – Statistische Tests
Z = 2,12
Voraussetzungen für den t-Test
Beispiel 3
Da
t = -2,03
und
-2,12 < t < 2,12
kann H0 nicht abgelehnt werden.
Die Beobachtungen müssen unabhängig voneinander sein
Bei 1 Stichprobe
normal verteilte Grundgesamtheiten oder Stichprobenumfang >= 25
Noch anschaulicher und schöner interpretierbar: p-Wert
Bei 2 Stichproben
p (|t| = 2,03) = 2 * [(1 – p(T16 ≤ 2,03)] = 0,0598 > 0,05
normal verteilte Grundgesamtheiten
[p(T16 ≤ 2,03) = Wahrscheinlichkeit, dass eine t16-verteilte Zufallsgröße T16 einen
Wert ≤ 2,03 annimmt]
gleiche Varianzen
Der p-Wert sagt aus wie wahrscheinlich es ist, dass das beobachtete Ergebnis
unter der Nullhypothese zu Stande kommt. Wird diese Wkt. Kleiner als das
Signifikanzniveau kann H0 abgelehnt werden.
Falls p < Signifikanzniveau =► H0 kann abgelehnt werden
Richtige Darstellung
t-Wert
Freiheitsgrade (n1 + n2 - 2)
p-Wert (ein- / zweiseitig)
IBE – Statistische Tests
IBE – Statistische Tests
Welche Tests für welche Merkmalstypen?
Beispiel 4
Zwei Gruppen von Patienten werden mit verschiedenen Schmerzmitteln
behandelt. Gibt es einen Unterschied beim Behandlungseffekt?
Merkmalstypen
Gruppe A:
Proband
1
2
3
4
5
6
7
8
9
10
Schmerzwert
9,8
9,6
8,9
8,8
8,4
7,9
7,2
5,8
5,5
5,1
quantitativ
qualitativ
nominal
ordinal
z.B. Religion
z.B. UAW
(WHO-Grad)
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
Gruppe B:
Proband
11
12
13
14
15
16
17
18
19
20
Schmerzwert
8,6
8,2
7,7
7,5
6,9
6,7
4,9
4,5
3,5
1,5
Normalverteilungsvoraussetzung erfüllt ?
nein
z.B.
χ2-Test
IBE – Statistische Tests
zensiert
z.B. Überlebenszeit
z.B.
Wilcoxon-Test
ja
z.B.
t-Test, F-Test
IBE – Statistische Tests
z.B.
Logrank-Test
Beispiel 4
Beispiel 4
Wilcoxon-Rangsummen- oder Mann-Withney-U-Test
H0: gleich starke Schmerzen in beiden Gruppen
Idee: Bringt man die Werte in Reihenfolge, sollten die Gruppen gut gemischt sein,
falls es keinen Unterschied gibt. (Optimal: ABABABABABAB….)
H1: verschieden starke Schmerzen in den Gruppen
Gruppe
A
A
A
A
B
A
B
A
B
B
Rang
1
2
3
4
5
6
7
8
9
10
Wert
9,8
9,6
8,9
8,8
8,6
8,4
8,2
7,9
7,7
7,5
Gruppe
A
B
B
A
A
A
B
B
B
B
Rang
11
12
13
14
15
16
17
18
19
20
Wert
7,2
6,9
6,7
5,8
5,5
5,1
4,9
4,5
3,5
1,5
Sind die Gruppen hier gut genug gemischt?
Die Teststatistik besteht aus der Summe der Ränge einer Gruppe:
TA = 1 + 2 + 3 + 4 + 6 + 8 + 11 + 14 + 15 + 16 = 80
H0 wird abgelehnt, falls:
T > w1-α/2 (n,m) = 127 oder T< wα/2 (n,m) = 83
Da
TA = 80 < wα/2 (n,m) = 83
kann H0 abgelehnt werden.
Die Schmerzen in beiden Gruppen sind nicht gleich stark.
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 5
Beispiel 5
Zwei Gruppen von Patienten mit akuter myeloischer Leukämie werden mit
verschiedenen Chemoterapien behandelt .
Gibt es einen Unterschied in der Überlebenszeit?
Problem:
Für Patienten, bei denen das Ereignis nicht eingetreten ist, kann keine
Überlebenszeit berechnet werden
- Die Beobachtungszeit kann als untere Grenze für die Überlebenszeit
verwendet werden
- Die Überlebenszeit ist dann zensiert
Wichtig bei Überlebenszeituntersuchungen:
Klar definierter Startzeitpunkt: z.B. Randomisationszeitpunkt,
Therapiebeginn
Klar definierter Ereigniszeitpunkt: z.B. Tod, Rezidiv
Jeder Patient wird vom Startzeitpunkt bis zum Eintreten des Ereignisses
beobachtet. Zeit zwischen Startzeitpunkt und Ereignis: Überlebenszeit
IBE – Statistische Tests
Auch für Patienten, die vorzeitig aus der Studie ausscheiden, liegt nur eine zensierte
Überlebenszeit vor (drop-out, loss-to follow-up)
Pat
Startzeitpunkt
Ereignis
Überlebenszeit
Ereignis
1
12.01.2006
12.05.2006
120
ja
2
14.02.2006
14.03.2007
393
ja
3
23.03.2006
25.04.2006
33
ja
4
04.04.2006
12.06.2006
69
ja
5
23.04.2006
01.07.2007
434+
nein
IBE – Statistische Tests
Zensierung von Überlebenszeiten
Beispiel 5
Bei Patienten mit Zensierungen ist nicht bekannt, zu welchen Zeitpunkt
das interessierende Endereignis eintritt: es ist nur eine untere Grenze
bekannt
Zensiert werden darf nur, wenn die Ursache der Zensierung
unabhängig von der Prognose bzw. Zielgröße ist
Andernfalls können sich falsch hohe Überlebenskurven ergeben!
Überlebenszeiten werden mit Hilfe der Kaplan-Meier-Methode
ausgewertet. Ob sich die Überlebensdauer zwischen verschiedenen
Gruppen signifikant unterscheidet, kann mit Hilfe des Log-Rank-Testes
ermittelt werden.
Bei der Kaplan-Meier-Methode gehen auch die Informationen zensierter
Patienten mit ein.
Daher sind alle Zensierungen (mit Ausnahme protokollgemäßes Ende der
Studie) mit Angabe von Behandlungsgruppe, Zeitpunkt und Grund
aufzulisten
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 5
Kaplan-Meier-Kurve
Patient
Überlebenszeit
Ereignis
Zensiert
1
10
ja
nein
2
20
ja
nein
3
3
ja
nein
4
15
ja
nein
5
36
ja
nein
6
22
ja
nein
7
40
ja
nein
8
6
nein
ja
9
28
ja
nein
10
32
nein
ja
y-Achse:
Überlebenswahrscheinlichkeit
Sprung: Ereignis
konstant, wenn kein Ereignis eintritt
Zensierte Überlebenszeit
x-Achse: Zeit
IBE – Statistische Tests
IBE – Statistische Tests
Beispiel 5
Beispiel 5
Sprung zum Zeitpunkt 3:
1*1/10=0,1
Überlebenswahrscheinlichkeit
zum Zeitpunkt 3:
1*(9/10)=0,90
Sprung zum Zeitpunkt 10:
0,9*(1/8)=0,1125
Überlebenswahrscheinlichkeit
zum Zeitpunkt 10:
0,9*7/8=0,788
Sprung zum Zeitpunkt t:
Überlebenswahrscheinlichkeit vor t*
(# Ereignisse /# unter Risiko vor t)
Patient
3
Überlebenswahrscheinlichkeit:
Überlebenswahrscheinlichkeit vor t*
(# kein Ereignis / # unter Risiko vor t)
Zeit bis zum
Ereignis
(z.B. Monate)
Anzahl der
Patienten unter
Risiko
Ereigniss
e
3
10
1
Zensierunge
n
0
Überlebenswahrscheinlichkeit
0.900
8
6
9
0
1
1
10
8
1
0
0.788
…
…
…
…
…
…
7
40
1
1
0
0.000
Patient
Zeit bis zum
Ereignis
(z.B. Monate)
Anzahl der
Patienten unter
Risiko
Ereigniss
e(1 = ja;
0 = nein)
Zensierunge
n (1 = ja;
0 = nein)
Überlebenswahrscheinlichkeit
0,900
3
3
10
1
0
8
6
9
0
1
1
10
8
1
0
0,788
4
15
7
1
0
0,675
2
20
6
1
0
0,563
6
22
5
1
0
0,450
9
28
4
1
0
0,338
10
32
3
0
1
5
36
2
1
0
0,169
7
40
1
1
0
0,000
IBE – Statistische Tests
IBE – Statistische Tests
Vergleich von zwei Überlebenskurven
Vergleich von zwei Überlebenskurven
mittels LogLog-Rank Test
Nullhypothese: Die Kaplan-Meier Kurven 2er Gruppen unterscheiden
sich nicht: gleiche Überlebenswahrscheinlichkeit in beiden Gruppen zu
jedem Zeitpunkt
Behandlung mit
Medikament B
Alternativhypothese: die Überlebenswahrscheinlichkeiten der beiden
Gruppen unterscheiden sich an mindestens einem Zeitpunkt
Ist der Unterschied
statistisch signifikant?
Behandlung mit
Medikament A
Idee: Vergleiche für jede Gruppe die unter der Nullhypothese (unter der
Annahme gleicher Überlebenswahrscheinlichkeiten) zu erwartende
Anzahl an Ereignissen mit der tatsächlich beobachteten Anzahl an
Ereignissen.
Vergleiche Chi2-Test
IBE – Statistische Tests
IBE – Statistische Tests
Log-Rank Test
Die unter der
Nullhypothese zu
erwartende Anzahl an
Ereignissen zu einem
Zeitpunkt berechnet sich
aus
Ereignis
Gruppe A
diA
Beispiel
kein
Ereignis
riA–diA
unter
Risiko
riA
EiA = riA*di / ri
Gruppe B
Berechnung dieser
Kontingenztafel für jeden
Ereigniszeitpunkt !
Summe
diB
di
riB–diB
ri–di
riB
ri
Überlebens- Anzahl der Patienten unter
zeit
Risiko
A
B
Gesamt
A
B
A
B
0,500
0,500
3
5
5
10
1
0
4
5
9
0
0
10
3
5
8
1
0
0,375
0,625
15
2
5
7
1
0
0,286
0,714
20
1
5
6
0
1
0,167
0,833
22
1
4
5
0
1
0,200
0,800
0,250
0,750
28
1
3
4
1
0
32
0
3
3
0
0
36
0
2
2
0
1
0,000
1,000
40
0
1
1
0
1
0,000
1,000
4
4
1,778
6,222
IBE – Statistische Tests
(O A − E A ) 2 (O B − E B ) 2
LR :=
+
EA
EB
# erwarteten
Ereignisse
6
Summe
Berechnung der Log-Rank Teststatistik
# beobachteten
Ereignisse
IBE – Statistische Tests
Kaplan-Meier-Kurve: Mediane Überlebenszeit
1.0
0.9
0.8
( 4 − 1.778 )² ( 4 − 6.222 )²
= 3.57
LR =
+
1.778
6.222
N = 60
0.7
0.6
0.5
0.4
0.3
Verteilung: Die Teststatistik LR ist unter der Nullhypothese Chi²verteilt mit einem Freiheitsgrad (1 FG).
Entscheidung: Die Nullhypothese wird auf dem 5% Niveau
abgelehnt, falls LR > 3.841 (1.96²)
IBE – Statistische Tests
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
Vergleich der medianen Überlebenszeit
1.0
Therapie A
0.9
Therapie B
0.8
0.7
0.6
P
Vielen Dank für Eure Aufmerksamkeit!
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
IBE – Statistische Tests
Herunterladen