Motivation ein statistischer Test steht im Zentrum so gut wie jeder klinischen oder epidemiologischen Studie L6: Statistische Tests Verena Hoffmann IBE Institut für medizinische Informationsverarbeitung, Biometrie und Epidemiologie Email: [email protected] Um eine wissenschaftlich Theorie beispielsweise in einer Doktorarbeit zu prüfen, braucht man ein Grundverständnis von statistischen Tests und deren Auswahl Um auf dem Stand der Wissenschaft zu bleiben, müssen auch praktizierende Ärzte beurteilen können, ob Tests in Publikationen korrekt angewandt wurden, um die Verlässlichkeit der Ergebnisse (z.B. zu neuen Behandlungsmethoden) einschätzen zu können IBE – Statistische Tests IBE – Statistische Tests Lernziele Hypothesenformulierung Hypothesenformulierung Prinzip der statistischen Tests Kriterien zur Auswahl eines statistischen Test - Skalenniveau - Parametrische vs. nichtparametrische Test - Verbundene vs. unverbundene Stichproben Theoretische Einsichten führen zu Behauptungen (Hypothesen) über die Beschaffenheit einer Population (Grundgesamtheit), deren Richtigkeit sich dann in empirischen Untersuchungen an Stichproben bestätigen muss. (Bortz 1979) Forschungshypothesen sollten aus - Voruntersuchungen - eigenen Überlegungen - aus Theorien Signifikanzniveau α / Einseitiger oder Zweiseitiger Test Teststatistiken verschiedener Tests p-Wert abgeleitet werden. Sie leisten einen umso größeren Beitrag zur Stützung kausaler Erklärungsansätze je stärker sie eine schlüssige und eindeutige Ergebnisinterpretation vorschreiben. Die Nullhypothese H0 nimmt stets an, dass es keinen Effekt gibt. Die Gegenhypothese H1 ist das exakte Gegenteil von H0. IBE – Statistische Tests IBE – Statistische Tests Hypothesenformulierung Beispiel: Rauchen ➠ Lungenkrebs Grundlage: Zigaretten enthalten Teer. Teer ist als krebserregender Stoff bekannt. Statistische Testtheorie Fragestellung Mögliche Hypothesen: H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig wie Patienten ohne Lungenkrebs. H1: Patienten mit Lungenkrebs rauch(t)en häufiger als Patienten ohne Lungenkrebs. ► Design: z.B. Querschnittsstudie (Fallkontrollstudie) H0: Raucher unterscheiden sich von Nichtrauchern in der Entwicklung von Lungenkrebs nicht. H1: Raucher entwickeln häufiger Lungenkrebs als Nichtraucher. ► Design: Kohortenstudie IBE – Statistische Tests IBE – Statistische Tests Statistische Testtheorie Statistische Testtheorie Fragestellung Hypothesen Fragestellung Hypothesen H0 H1 Grundgesamtheit IBE – Statistische Tests IBE – Statistische Tests Statistische Testtheorie Fragestellung Hypothesen H0 H1 Statistische Testtheorie Fragestellung Hypothesen Grundgesamtheit H0 H1 Grundgesamtheit Stichprobe Stichprobe Teststatistik (zum Überprüfen der Hypothesen IBE – Statistische Tests Statistische Testtheorie Fragestellung Hypothesen IBE – Statistische Tests Testentscheidung Mit Hilfe eines geeigneten Tests kann ermittelt werden, welches Ergebnis unter der Nullhypothese zu erwarten wäre. Weichen die empirischen Ergebnisse zu sehr von den unter der Nullhypothese zu erwartenden Ergebnissen ab, kann die Nullhypothese abgelehnt werden. H0 H1 Grundgesamtheit ► H1 ist dann statistisch signifikant Stichprobe CAVE: Das Gegenteil gilt nicht! Man kann sich nicht aktiv für H0 entscheiden. Man kann nur feststellen, dass H0 nicht abgelehnt werden kann. Teststatistik (zum Überprüfen der Hypothesen Begriffe wie „beweisen“ oder „wahr sein“ sind für die Ergebnisse statistischer Tests unzutreffend. Es wird immer mit Wahrscheinlichkeiten gearbeitet. Testentscheidung IBE – Statistische Tests IBE – Statistische Tests Testentscheidung Statistische Testtheorie Wenn H0 abgelehnt wird …. Fragestellung H0:Die Menge der gerauchten Zigaretten steht in keinem Zusammenhang mit dem Lungenkrebsrisiko. Hypothesen …kann das exakte Gegenteil… H1: Die Menge der gerauchten Zigaretten steht in Zusammenhang mit dem Lungenkrebsrisiko. …immer noch viele Hypothesen enthalten… H1: Das Lungenkrebsrisiko steigt mit der Zahl der gerauchten Zigaretten. H1: Wenn mehr Frauen rauchen, wird Lungenkrebs auch bei Frauen häufiger. H0 H1 Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen etc…. Rückschluss Testentscheidung IBE – Statistische Tests IBE – Statistische Tests Statistische Testtheorie Signifikanzniveau α: Die Irrtumswahrscheinlichkeit Ein 100% richtiges Ergebnis erhält man nur durch Kenntnisse über die Grundgesamtheit. Fragestellung Hypothesen Die Fehlerwahrscheinlichkeit wird über das Signifikanzniveau α kontrolliert. H0 H1 Testentscheidung Realität Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen Testentscheidung IBE – Statistische Tests Rückschluss H0 richtig Immer korrekt? H1 richtig H0 beibehalten korrekte Entscheidung für H1 Fehler 1. Art Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α Fehler 2. Art korrekte Entscheidung Wahrscheinlichkeit = β Wahrscheinlichkeit = 1-β IBE – Statistische Tests Signifikanzniveau α Auswahl eines geeigneten Tests Folgende Fragen sollte man sich stellen: 1. Welche Merkmalstypen liegen vor? Das Signifikanzniveau α wird auch als „Patientenrisiko“ bezeichnet 2. Ist eine Verteilungsannahme gerechtfertigt? 3. Handelt es sich um eine verbundene oder eine unverbundene Stichprobe? Bsp.: Medikamentenprüfung α ist das Risiko des Patienten mit einer neuen Therapie mit unbekannten Langzeitfolgen etc. behandelt zu werden, obwohl es keinen Unterschied zwischen der neuen Therapie und der Standardtherapie gibt 4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert? 5. Möchte ich einseitig oder zweiseitig testen? 6. Welches Signifikanzniveau ist geeignet? Meist ist α=5% oder α=1% IBE – Statistische Tests IBE – Statistische Tests Merkmalstypen Verteilungsannahme Diskret: endlich viele abzählbare Ausprägungen (z.B. Zigaretten) Häufig liegen den erhobenen Daten bestimmte Verteilungen zu Grunde: Stetig: alle Werte eines Intervalls sind mögliche Ausprägungen (z.B. Körpergewicht) bei kardinalskalierten Daten ist es häufig eine Normalverteilung. Die Daten sind dann symmetrisch um einen Mittelwert verteilt und gleichen einer Gauss‘schen Glockenkurve Nominalskalierung: die Ausprägungen sind Namen oder Kategorien, die nicht sinnvoll geordnet werden können (z.B. Religion, Geschlecht, Verwendungszweck) Ordinalskalierung: die Ausprägungen können geordnet werden, aber ihre Abstände sind nicht interpretierbar (z.B. Schulnoten) Kardinalskala: Ausprägungen sind Zahlen, Interpretation der Abstände ist möglich (z.B. Gewicht) Qualitataiv: endlich viele Ausprägungen, höchstens ordinalskaliert Quantitativ: Ausprägungen geben ein Ausmaß wieder IBE – Statistische Tests beim Vergleich von Anteilen kann eine Binomialverteilung zu Grunde gelegt werden Tests denen eine Verteilungsannahme zu Grunde liegt bauen auf deren Parametern auf - Bei Normalverteilung auf dem Mittelwert µ und der Varianz σ2 - Bei Binomialverteilung auf der Wahrscheinlichkeit p und dem Stichprobenumfang n Tests die auf solchen Verteilungsannahmen beruhen nennt man parametrisch IBE – Statistische Tests Verteilungsannahme Verbundene oder unverbundene Stichprobe Unverbundene Stichprobe: Vergleich von unabhängigen Individuen Manchmal sind Verteilungsannahmen nicht gerechtfertigt oder die den Daten zu Grunde liegende Verteilung ist unbekannt Bsp.: zwei Therapien sollen verglichen werden, dazu erhält ein Teil der Probanden Therapie A, der andere Teil Therapie B Verbundene Stichprobe: mehrere Beobachtungen kommen von derselben Beobachtungseinheit Daher können auch keine Parameter geschätzt werden Es kommen dann nicht-parametrische Tests zum Einsatz, deren Teststatistiken nicht auf Verteilungen beruhen Bsp.: Die Wirksamkeit einer Lotion soll auf trockener und feuchter Haut getestet werden. Dazu wird sie bei jeweils einem Probanden auf trockener und feuchter Haut getestet. ► von jedem Patienten liegt ein Datenpaar vor IBE – Statistische Tests IBE – Statistische Tests Welche Tests für welche Merkmalstypen? Folgende Fragen sollte man sich stellen: Merkmalstypen nominal ordinal z.B. Geschlecht z.B. UAW (WHO-Grad) 1. Welche Merkmalstypen liegen vor? quantitativ qualitativ diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht zensiert z.B. Überlebenszeit z.B. χ2-Test z.B. Wilcoxon-Test 2. Ist eine Verteilungsannahme gerechtfertigt? 3. Handelt es sich um eine verbundene oder eine unverbundene Stichprobe? 4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert? 5. Möchte ich einseitig oder zweiseitig testen? Normalverteilungsvoraussetzung erfüllt ? nein Auswahl eines geeigneten Tests 6. Welches Signifikanzniveau ist geeignet? ja z.B. t-Test, F-Test z.B. Logrank-Test IBE – Statistische Tests Auswahl eines geeigneten Tests Einseitiger oder zweiseitiger Test Folgende Fragen sollte man sich stellen: Vergleich von Therapie A mit Therapie B 1. Welche Merkmalstypen liegen vor? 2-seitig: Falls für die Richtung des Unterschieds in der Wirksamkeit keine (ausreichende) Evidenz vorliegt 2. Ist eine Verteilungsannahme gerechtfertigt? 3. Handelt es sich um eine verbundene oder eine unverbundene Stichprobe? 4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert? 5. Möchte ich einseitig oder zweiseitig testen? 6. Welches Signifikanzniveau ist geeignet? Nullhypothese H0: Die Therapien sind gleich wirksam Alternativhypothese H1: Die Therapien sind unterschiedlich wirksam 1-seitig: Falls die Richtung des Unterschieds in der Wirksamkeit bekannt ist Nullhypothese H0: Therapie A ist höchstens so wirksam wie Therapie B Alternativhypothese H1: Therapie A ist wirksamer als B IBE – Statistische Tests IBE – Statistische Tests Auswahl eines geeigneten Tests Anwendungen Folgende Fragen sollte man sich stellen: Chi2 – Test 1. Welche Merkmalstypen liegen vor? t-Test 2. Ist eine Verteilungsannahme gerechtfertigt? Wilcoxon-Rangsummen-Test 3. Handelt es sich um eine verbundene oder eine unverbundene Stichprobe? Kaplan-Meier-Verfahren und Log-Rank-Test 4. Sind die Vorraussetzungen erfüllt, die der ausgewählte Test fordert? 5. Möchte ich einseitig oder zweiseitig testen? 6. Welches Signifikanzniveau ist geeignet? IBE – Statistische Tests IBE – Statistische Tests Beispiel 1 Beispiel 1 FRAGE: FRAGE: Entspricht das Verhältnis Männer : Frauen in diesem Kurs dem Geschlechtsverhältnis in der Bevölkerung (1:1)? Entspricht das Verhältnis Männer : Frauen bei den Medizinstudenten an der LMU dem Geschlechtsverhältnis in der Bevölkerung (1:1)? HYPOTHESEN: H0: Gleich viele Frauen und Männer studieren Medizin H1: Das Geschlechtsverhältnis ist unausgeglichen IBE – Statistische Tests IBE – Statistische Tests Welche Tests für welche Merkmalstypen? FRAGE: Merkmalstypen quantitativ qualitativ nominal ordinal z.B. Religion z.B. UAW (WHO-Grad) diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht zensiert z.B. Überlebenszeit Entspricht das Verhältnis Männer : Frauen bei den Medizinstudenten an der LMU dem Geschlechtsverhältnis in der Bevölkerung (1:1)? HYPOTHESEN: H0: Gleich viele Frauen und Männer studieren Medizin H1: Das Geschlechtsverhältnis ist unausgeglichen DATEN: Normalverteilungsvoraussetzung erfüllt ? nein z.B. χ2-Test Beispiel 1 z.B. Wilcoxon-Test bm=___ bw=___ ja z.B. t-Test, F-Test IBE – Statistische Tests z.B. Logrank-Test Welche Frage muss der Test beantworten? IBE – Statistische Tests Beispiel 1 Beispiel 1 Wie weit dürfen die beobachteten Daten vom Verhältnis 1:1 abweichen, damit diese Abweichung noch als zufällig gelten kann? 2. Abweichung der empirischen Werte vom Erwartungswert quantifizieren (bw − e) 2 (bm − e) 2 + χ = e e Antwort gibt der Chi2-Test 2 Berechnung: 1. Erwartungswert berechnen für Annahme: Gleichverteilung bzw. H0 χ 2 =____ bw +bm 2 e= e = ___ IBE – Statistische Tests Beispiel 1 Beispiel 1 Tabelle: 5%-, 1%- und 0,1%-Schranken der χ2-Verteilung 3. Testentscheidung Entscheidungsregel: lehne H0 ab, wenn FG 5% 1% 0,1% 1 3,84 6,63 10,83 2 5,99 9,21 13,82 3 7,81 11,34 16,27 4 9,49 13,28 18,47 5 11,07 15,09 20,52 2 2 χ berechnet ≥ χ (df ,α ) (Empirisch ) ____ ≥ 3,84 Alle Werte >= 3,84 weichen so stark von der Gleichheitsannahme ist, dass H1 zum Signifikanzniveau 5% signifikant ist. Beispiel 2 Beispiel 2 Vergleich einer Standardtherapie mit einer neuartigen Therapie Therapie nein ja Standard 22 Neu Σ Σ H0: Die Heilungsraten sind von der Behandlung unabhängig. 128 150 H1: Die Heilungsraten hängen von der Therapie ab. 5 95 100 27 223 250 Heilungsrate Standard: 128 / 150 Heilungsrate Neu: 95 / 100 Frage: Ist die Neue Therapie wirklich besser ? (85,3%) (95%) IBE – Statistische Tests IBE – Statistische Tests Beispiel 2 a Standard Neu Σ a c 22 5 27 ja b 16,2 d d 2 16 , 2 nein c 2 2 2 2 ( 22 − 16 , 2 ) (128 − 133 ,8 ) (5 − 10 ,8 ) (95 − 89 , 2 ) + + + χ = Erwartete Werte für jede Zelle berechnen: Therapie b 150 95 100 223 250 IBE – Statistische Tests 10 ,8 89 , 2 Σ 128 150 = 27 ⋅ 0,6 = 16,2 Für Zelle a: a = 27 ⋅ 250 133 ,8 Unter H0 werden von den 27 geheilten Personen 60% in der Standardgruppe erwartet, da auch 60% der Patienten insgesamt in der Standardgruppe sind χ 2 = 2,08+0,25+3,11+ 0,38 χ 2 =5,82 2 2 χ empirisch = 5,82 ≥ 3,84 = χ theoretisc h H0 kann abgelehnt werden. Die Heilungsraten hängen von der Therapie ab. Voraussetzungen für den Chi2-Test Beispiel 3 Blutzuckerspiegel von 18 Patienten mit leichter und mittlerer Diabetes Patienten mit leichter Diabetes: 130, 140, 150, 130, 80,130, 180, 90, 170, 100 1. Unabhängigkeit der Beobachtungen 2. Erwartungswerte > 5 3. Eindeutige Zuordenbarkeit Patienten mit mittlerer Diabetes: 130, 170, 180, 160, 140,170, 210, 120 Nullhypothese H0: Der Blutzuckerspiegel unterscheidet sich zwischen den beiden Gruppen nicht Alternativhypothese H1: Der Blutzuckerspiegel unterscheidet sich zwischen den beiden Gruppen IBE – Statistische Tests IBE – Statistische Tests Welche Tests für welche Merkmalstypen? Beispiel 3 Leichte Diabetis 180 Antwort auf die Frage liefert der t-Test für unverbundene Stichproben quantitativ qualitativ nominal ordinal z.B. Religion z.B. UAW (WHO-Grad) diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht zensiert z.B. Überlebenszeit 160 Voraussetzungen: 140 1. Daten sind normalverteilt (Überprüfung mit QQ-Plot, Histogramm oder ShapiroWilk-Test) leicht Merkmalstypen 120 100 2. Die Varianzen der beiden Stichproben sind gleich (Überprüfung durch F-Test) 80 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 Normale Quantile Mittlere Diabetis 220 Normalverteilungsvoraussetzung erfüllt ? nein z.B. Wilcoxon-Test ja z.B. t-Test, F-Test 180 mittel z.B. χ2-Test 200 z.B. Logrank-Test 160 140 IBE – Statistische Tests IBE – Statistische Tests 120 -1.5 -1.0 -0.5 0 Normale Quantile 0.5 1.0 1.5 Beispiel 3 Beispiel 3 Der t-Test beruht auf dem Vergleich der Mittelwerte der beiden Gruppen Benötigt werden: Träfe H0 zu, wäre eine Differenz von δ= 0 zu erwarten Stichprobenumfänge: nl=10 und nm=8 Wir wollen einen zweiseitigen Test durchführen und als Signifikanzniveau wird α= 0,05 gewählt Für die Gruppen mit leichter und mittlerer Diabetes werden die Mittelwerte und die Stichprobenvarianzen berechnet Das Maß der Abweichung des beobachteten Mittelwertes vom erwarteten Mittelwert ist t: t= Mittelwerte: xl = Stichprobenvarianzen: 1 nl nl ∑x li i =1 mit 1 1 2 + s nl nm s2 = (nl − 1) sl2 + ( nm − 1) sm2 ( nl + nm − 2) außerdem s2: s2 = 1 nm nm ∑x mi = 160 i =1 1 nl (xli − xl )2 = 1066,70 s = ∑ nl − 1 i =1 2 l sm2 = xl − xm = 130 und xm = 1 nm 2 ∑ (xmi − xm ) = 857,32 nm − 1 i =1 (nl −1) sl2 + (nm −1) sm2 9 *1066,67 + 7 * 857,31 = = 975,08 (nl + nm − 2) 16 IBE – Statistische Tests IBE – Statistische Tests Beispiel 3 Beispiel 3 Berechnung der Teststatistik: t= xl − xm 1 1 2 + s nl nm = 130 − 160 1 1 + 975,08 10 8 = − 30 = −2,03 219,39 P(Z < -2,12) = 0,025 = α/2 Wir testen zweiseitig zum Niveau α=5% Z = -2,12 P(Z > 2,12) = 0,025 = α/2 Dichte t16Verteilung Nun vergleichen wir den berechneten t-Wert mit dem Wert der t-Verteilung bei n+m-2=16 Freiheitsgraden IBE – Statistische Tests IBE – Statistische Tests Z = 2,12 Voraussetzungen für den t-Test Beispiel 3 Da t = -2,03 und -2,12 < t < 2,12 kann H0 nicht abgelehnt werden. Die Beobachtungen müssen unabhängig voneinander sein Bei 1 Stichprobe normal verteilte Grundgesamtheiten oder Stichprobenumfang >= 25 Noch anschaulicher und schöner interpretierbar: p-Wert Bei 2 Stichproben p (|t| = 2,03) = 2 * [(1 – p(T16 ≤ 2,03)] = 0,0598 > 0,05 normal verteilte Grundgesamtheiten [p(T16 ≤ 2,03) = Wahrscheinlichkeit, dass eine t16-verteilte Zufallsgröße T16 einen Wert ≤ 2,03 annimmt] gleiche Varianzen Der p-Wert sagt aus wie wahrscheinlich es ist, dass das beobachtete Ergebnis unter der Nullhypothese zu Stande kommt. Wird diese Wkt. Kleiner als das Signifikanzniveau kann H0 abgelehnt werden. Falls p < Signifikanzniveau =► H0 kann abgelehnt werden Richtige Darstellung t-Wert Freiheitsgrade (n1 + n2 - 2) p-Wert (ein- / zweiseitig) IBE – Statistische Tests IBE – Statistische Tests Welche Tests für welche Merkmalstypen? Beispiel 4 Zwei Gruppen von Patienten werden mit verschiedenen Schmerzmitteln behandelt. Gibt es einen Unterschied beim Behandlungseffekt? Merkmalstypen Gruppe A: Proband 1 2 3 4 5 6 7 8 9 10 Schmerzwert 9,8 9,6 8,9 8,8 8,4 7,9 7,2 5,8 5,5 5,1 quantitativ qualitativ nominal ordinal z.B. Religion z.B. UAW (WHO-Grad) diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht Gruppe B: Proband 11 12 13 14 15 16 17 18 19 20 Schmerzwert 8,6 8,2 7,7 7,5 6,9 6,7 4,9 4,5 3,5 1,5 Normalverteilungsvoraussetzung erfüllt ? nein z.B. χ2-Test IBE – Statistische Tests zensiert z.B. Überlebenszeit z.B. Wilcoxon-Test ja z.B. t-Test, F-Test IBE – Statistische Tests z.B. Logrank-Test Beispiel 4 Beispiel 4 Wilcoxon-Rangsummen- oder Mann-Withney-U-Test H0: gleich starke Schmerzen in beiden Gruppen Idee: Bringt man die Werte in Reihenfolge, sollten die Gruppen gut gemischt sein, falls es keinen Unterschied gibt. (Optimal: ABABABABABAB….) H1: verschieden starke Schmerzen in den Gruppen Gruppe A A A A B A B A B B Rang 1 2 3 4 5 6 7 8 9 10 Wert 9,8 9,6 8,9 8,8 8,6 8,4 8,2 7,9 7,7 7,5 Gruppe A B B A A A B B B B Rang 11 12 13 14 15 16 17 18 19 20 Wert 7,2 6,9 6,7 5,8 5,5 5,1 4,9 4,5 3,5 1,5 Sind die Gruppen hier gut genug gemischt? Die Teststatistik besteht aus der Summe der Ränge einer Gruppe: TA = 1 + 2 + 3 + 4 + 6 + 8 + 11 + 14 + 15 + 16 = 80 H0 wird abgelehnt, falls: T > w1-α/2 (n,m) = 127 oder T< wα/2 (n,m) = 83 Da TA = 80 < wα/2 (n,m) = 83 kann H0 abgelehnt werden. Die Schmerzen in beiden Gruppen sind nicht gleich stark. IBE – Statistische Tests IBE – Statistische Tests Beispiel 5 Beispiel 5 Zwei Gruppen von Patienten mit akuter myeloischer Leukämie werden mit verschiedenen Chemoterapien behandelt . Gibt es einen Unterschied in der Überlebenszeit? Problem: Für Patienten, bei denen das Ereignis nicht eingetreten ist, kann keine Überlebenszeit berechnet werden - Die Beobachtungszeit kann als untere Grenze für die Überlebenszeit verwendet werden - Die Überlebenszeit ist dann zensiert Wichtig bei Überlebenszeituntersuchungen: Klar definierter Startzeitpunkt: z.B. Randomisationszeitpunkt, Therapiebeginn Klar definierter Ereigniszeitpunkt: z.B. Tod, Rezidiv Jeder Patient wird vom Startzeitpunkt bis zum Eintreten des Ereignisses beobachtet. Zeit zwischen Startzeitpunkt und Ereignis: Überlebenszeit IBE – Statistische Tests Auch für Patienten, die vorzeitig aus der Studie ausscheiden, liegt nur eine zensierte Überlebenszeit vor (drop-out, loss-to follow-up) Pat Startzeitpunkt Ereignis Überlebenszeit Ereignis 1 12.01.2006 12.05.2006 120 ja 2 14.02.2006 14.03.2007 393 ja 3 23.03.2006 25.04.2006 33 ja 4 04.04.2006 12.06.2006 69 ja 5 23.04.2006 01.07.2007 434+ nein IBE – Statistische Tests Zensierung von Überlebenszeiten Beispiel 5 Bei Patienten mit Zensierungen ist nicht bekannt, zu welchen Zeitpunkt das interessierende Endereignis eintritt: es ist nur eine untere Grenze bekannt Zensiert werden darf nur, wenn die Ursache der Zensierung unabhängig von der Prognose bzw. Zielgröße ist Andernfalls können sich falsch hohe Überlebenskurven ergeben! Überlebenszeiten werden mit Hilfe der Kaplan-Meier-Methode ausgewertet. Ob sich die Überlebensdauer zwischen verschiedenen Gruppen signifikant unterscheidet, kann mit Hilfe des Log-Rank-Testes ermittelt werden. Bei der Kaplan-Meier-Methode gehen auch die Informationen zensierter Patienten mit ein. Daher sind alle Zensierungen (mit Ausnahme protokollgemäßes Ende der Studie) mit Angabe von Behandlungsgruppe, Zeitpunkt und Grund aufzulisten IBE – Statistische Tests IBE – Statistische Tests Beispiel 5 Kaplan-Meier-Kurve Patient Überlebenszeit Ereignis Zensiert 1 10 ja nein 2 20 ja nein 3 3 ja nein 4 15 ja nein 5 36 ja nein 6 22 ja nein 7 40 ja nein 8 6 nein ja 9 28 ja nein 10 32 nein ja y-Achse: Überlebenswahrscheinlichkeit Sprung: Ereignis konstant, wenn kein Ereignis eintritt Zensierte Überlebenszeit x-Achse: Zeit IBE – Statistische Tests IBE – Statistische Tests Beispiel 5 Beispiel 5 Sprung zum Zeitpunkt 3: 1*1/10=0,1 Überlebenswahrscheinlichkeit zum Zeitpunkt 3: 1*(9/10)=0,90 Sprung zum Zeitpunkt 10: 0,9*(1/8)=0,1125 Überlebenswahrscheinlichkeit zum Zeitpunkt 10: 0,9*7/8=0,788 Sprung zum Zeitpunkt t: Überlebenswahrscheinlichkeit vor t* (# Ereignisse /# unter Risiko vor t) Patient 3 Überlebenswahrscheinlichkeit: Überlebenswahrscheinlichkeit vor t* (# kein Ereignis / # unter Risiko vor t) Zeit bis zum Ereignis (z.B. Monate) Anzahl der Patienten unter Risiko Ereigniss e 3 10 1 Zensierunge n 0 Überlebenswahrscheinlichkeit 0.900 8 6 9 0 1 1 10 8 1 0 0.788 … … … … … … 7 40 1 1 0 0.000 Patient Zeit bis zum Ereignis (z.B. Monate) Anzahl der Patienten unter Risiko Ereigniss e(1 = ja; 0 = nein) Zensierunge n (1 = ja; 0 = nein) Überlebenswahrscheinlichkeit 0,900 3 3 10 1 0 8 6 9 0 1 1 10 8 1 0 0,788 4 15 7 1 0 0,675 2 20 6 1 0 0,563 6 22 5 1 0 0,450 9 28 4 1 0 0,338 10 32 3 0 1 5 36 2 1 0 0,169 7 40 1 1 0 0,000 IBE – Statistische Tests IBE – Statistische Tests Vergleich von zwei Überlebenskurven Vergleich von zwei Überlebenskurven mittels LogLog-Rank Test Nullhypothese: Die Kaplan-Meier Kurven 2er Gruppen unterscheiden sich nicht: gleiche Überlebenswahrscheinlichkeit in beiden Gruppen zu jedem Zeitpunkt Behandlung mit Medikament B Alternativhypothese: die Überlebenswahrscheinlichkeiten der beiden Gruppen unterscheiden sich an mindestens einem Zeitpunkt Ist der Unterschied statistisch signifikant? Behandlung mit Medikament A Idee: Vergleiche für jede Gruppe die unter der Nullhypothese (unter der Annahme gleicher Überlebenswahrscheinlichkeiten) zu erwartende Anzahl an Ereignissen mit der tatsächlich beobachteten Anzahl an Ereignissen. Vergleiche Chi2-Test IBE – Statistische Tests IBE – Statistische Tests Log-Rank Test Die unter der Nullhypothese zu erwartende Anzahl an Ereignissen zu einem Zeitpunkt berechnet sich aus Ereignis Gruppe A diA Beispiel kein Ereignis riA–diA unter Risiko riA EiA = riA*di / ri Gruppe B Berechnung dieser Kontingenztafel für jeden Ereigniszeitpunkt ! Summe diB di riB–diB ri–di riB ri Überlebens- Anzahl der Patienten unter zeit Risiko A B Gesamt A B A B 0,500 0,500 3 5 5 10 1 0 4 5 9 0 0 10 3 5 8 1 0 0,375 0,625 15 2 5 7 1 0 0,286 0,714 20 1 5 6 0 1 0,167 0,833 22 1 4 5 0 1 0,200 0,800 0,250 0,750 28 1 3 4 1 0 32 0 3 3 0 0 36 0 2 2 0 1 0,000 1,000 40 0 1 1 0 1 0,000 1,000 4 4 1,778 6,222 IBE – Statistische Tests (O A − E A ) 2 (O B − E B ) 2 LR := + EA EB # erwarteten Ereignisse 6 Summe Berechnung der Log-Rank Teststatistik # beobachteten Ereignisse IBE – Statistische Tests Kaplan-Meier-Kurve: Mediane Überlebenszeit 1.0 0.9 0.8 ( 4 − 1.778 )² ( 4 − 6.222 )² = 3.57 LR = + 1.778 6.222 N = 60 0.7 0.6 0.5 0.4 0.3 Verteilung: Die Teststatistik LR ist unter der Nullhypothese Chi²verteilt mit einem Freiheitsgrad (1 FG). Entscheidung: Die Nullhypothese wird auf dem 5% Niveau abgelehnt, falls LR > 3.841 (1.96²) IBE – Statistische Tests 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 Vergleich der medianen Überlebenszeit 1.0 Therapie A 0.9 Therapie B 0.8 0.7 0.6 P Vielen Dank für Eure Aufmerksamkeit! 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 IBE – Statistische Tests