BIOMETRIE UND DATENMANAGEMENT IN KLINISCHEN STUDIEN Lutz Edler DKFZ - Deutsches Krebsforschungszentrum, Heidelberg 1. 2. 3. 4. Planung und Studiendesign Datenerhebung und Datenmanagement Auswertung Bericht und Publikation 1 From Sofie‘s World Though many people recover from illness after taking a certain type of medicine, this does not mean that it is the medicine which cured them. For this reason we need a large group of people who believe that they are receiving the same medicine while in reality they are getting only flour mixed with water. Should these people also recover from their illness, then there must be a third factor which is curing them - for example the belief in the effectiveness of the medicine. 2 Biometrie und Datenmanagment in klinischen Studien Klinische Studien sind prospektiv geplant und durchgeführte experimentelle Projekte mit dem Ziel der Bestimmung optimaler standardisierter Behandlungen für künftige Patienten. Dazu werden aus den patienten-bezogenen klinischen Daten mittels quantifizierender statistischer Verfahren Schlussfolgerungen zur Wirksamkeit und Sicherheit gezogen. STUDIENTYP AUSGANGSSITUATION prospektiv Behandlungs- und Kontrollgruppe randomisiert Vergleich 3 Biometrie und Datenmanagment in klinischen Studien Sowohl in der Planungs- als auch in der Auswertungsphase hat die Biometrie die wichtige Funktion, Studienergebnisse mit Studienhypothesen mittels geeigneter statistischer Methodik zu verknüpfen. Die Auswertung selbst erfordert die Bereitstellung korrekter Daten, durch optimale Datenerhebung und ein effizientes Datenmanagement Statistik ist eine Zusammenfassung von Methoden, die uns erlauben, vernünftige optimale Entscheidungen im Falle von Ungewissheit zu treffen. A.Wald 4 BIOMETRIE im Ablauf einer Studie 1. Planung mit Studiendesign Formulierung der Fragestellung Ableitung der Prüfhypothesen Festlegung einer ausreichenden Fallzahl Stratifikation, Randomisation Planung Durch führung Daten - erhebung - -management Biometrische Auswertung Publikation 5 Biometrie und Datenmanagment in klinischen Studien Die drei großen Fragestellungen Frage der (Un)Genauigkeit (z.B. Konfidenzintervalle) In einer Studie wird in einer Patientenpopulatiuon ein bestimmtes Ergebnis (z.B. Responserate) beobachtet. Mit welcher Präzision können Aussagen getroffen werden? Frage der Aussagenprüfung (Testtheorie) Über eine bestimmte Substanz besteht eine theoretische Vorstellung über ihre Wirksamkeit (z.B. besser als Standardmedikation). Wird diese durch die empirischen Daten gestützt oder nicht? Frage der Prädiktion (Regression) Es liegen auf ausreichender Basis empirische klinischer Daten für eine Gruppe von Patienten vor Kann eine Prognose des Krankheitsverlaufs gegeben werden? 6 95% Vertrauensbreich für die Ansprechrate von 20% 7 Biometrie und Datenmanagment in klinischen Studien Frage der Testtheorie Nullhypothese: Eine therapeutische Maßnahme sei unwirksam bzw. im Vergleich zu einer anderen Behandlung gleich effizient. Alternativhypothese: Eine therapeutische Maßnahme sei wirksam bzw. sie weist sie im Vergleich zu einer anderen Behandlung einen unterschiedlichen Behandlungserfolg auf. Anmerkung: zweiseitige Fragestellung (two-sided test) einseitige Fragestellung (one-sided test) !!! NEU: Nicht-Unterlegenheit Unterschied Überlegenheit einseitige Fragestellung (one-sided test) mit einer Äquivalenzgrenzsgrenze 8 Beispiel Nullhypothese: Die Wirksamkeit des neuen Medikamentes ist höchstens gleich gut, wie die der bisherigen Standardmedikation Prob(Response) = 0,2 Alternativhypohese: Die Wirksamkeit des neuen Medikamentes ist besser, als die der bisherigen Standardmedikation: Prob(Response) = 0.3 einseitige oder zweiseitige Fragestellung: einseitige ist trennschärfer als eine zweiseitige aber Richtung der vermuteten Abweichung geht in die Testprozedur ein Festlegen der Hypothesen vor der Durchführung 9 Testverfahren Die Irrtumswahrscheinlichkeit α (α-Fehler, Fehler 1.Art) ist die Wahrscheinlichkeit, mit der die Nullhypothese fälschlich abgelehnt wird. Die Irrtumswahrscheinlichkeit β (β-Fehler, Fehler 2.Art) ist die Wahrscheinlichkeit, mit der die Alternativhypothese fälschlich abgelehnt wird. 1. Es gibt also immer zwei Irrtumswahrscheinlichkeiten! 2. Es handelt sich nicht um die Wahrscheinlichkeit einer irrtümlichen Behandlung: bedingte Wahrscheinlichkeit! vgl: unsere Kontroverse im DÄBlatt 10 Kontroverse im DÄBlatt: Windeler, Edler, Antes, 2004 Wolfgang Weihe 26.3.2004: „Für alle guten und sehr guten Studien, die auf dem 5-ProzentNiveau signifikant sind und mit denen wir unser therapeutisches Tun begründen, gilt, dass die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt, nicht bei fünf Prozent, sondern irgendwo zwischen zehn Prozent (sehr selten) und 40 Prozent (häufig) liegt.” im ersten Teil (A) des Satzes eine andere Definition als im zweiten (B). A: P (signifikante Studie | Nullhypothese ist richtig). “Wahrscheinlichkeit für ein signifikantes Studienergebnis unter der Bedingung, dass die Nullhypothese richtig ist”. B: P (Nullhypothese ist richtig | signifikante Studie). “Wahrscheinlichkeit” dafür, dass die Nullhypothese richtig ist, unter der Bedingung, dass eine Studie ein signifikantes Ergebnis liefert. Die B-Wahrscheinlichkeit gibt es im Sinn einer frequentistischen Statistik nicht. “Nullhypothese ist richtig”, ist nicht beobachtbar, d.h. es ist nie zu entscheiden, wann dieser Umstand eingetreten ist und wann nicht. Damit kann diese “Wahrscheinlichkeit” nicht quantifiziert werden. 11 Beispiel (einseitige Alternative, Test gegen festen Wert) Eine Pharmafirma hat ein neues Medikament entwickelt, von dem vermutet wird, dass es die Heilungschance bei einer bestimmten Krankheit von 20% (Erfolgschance bei Standardmedikation) auf 30% erhöht. Man plant eine Studie mit n=30 (n=100) Patienten. Wie groß ist die Chance, den vermuteten Effekt (10%) nachzuweisen? Berechnung der Power (Fallzahlplanung) Wie wahrscheinlich ist es, dass bei Gültigkeit einer bestimmten Alternativhypothese, diese mit dem Test auch tatsächlich erkannt wird? Bei n=30 Patienten und einer tatsächlichen Steigerung der Responserate von 20% auf 30%, beträgt die Power lediglich 40% . Bei n=100 steigt die Power auf 77% . 12 1. Bei einer Signifikanz auf dem Niveau 5% oder 1% bleibt ein ‚Restrisiko‘ von dieser Höhe dafür, daß die neue Therapie doch nicht besser ist. 2. Eine Macht von 90% besagt, daß bessere Therapien zu 10% nicht erkannt werden. Wenn Studien aus Gründen der Machbarkeit lediglich mit einer Macht zwischen 80% und 90% geplant werden, zeigt jede fünfte bis zehnte Studie eine vorhandene Wirksamkeit nicht. 3. Signifikanz hängt von der Fallzahl ab. So kann es passieren dass kleine und klinisch nicht mehr relevante Unterschiede signifikant werden, wenn die Fallzahl nur hinreichend hoch ist. 13 Biometrie und Datenmanagment in klinischen Studien Bestimmung der Fallzahl in der Praxis Realistischerweise erwartete Unterschiede sind oft relativ klein und erfordern bei entsprechenden Vorgaben in Bezug auf die Fehlerraten (α, β) häufig unrealistisch große Fallzahlen. Auswege: Anderer Endpunkt (Erfolgskriterium) Lockern der Ein/Ausschlußkriterien der Studie Multizentrische Studie Längere Studiendauer oder Verzicht auf die Studie 14 Was ist Randomisation? Randomisation ist die zufällige Zuordnung der Behandlungen zu den Untersuchungseinheiten bei der Anlage von geplanten Versuchen. Sie soll die Zufälligkeit der Stichprobe im Sinne der mathematischen Statistik garantieren und ist Grundlage eines Kausalitätsschlusses. Die zufällige Zuordnung wird mit Tabellen (Algorithmen) von Zufallszahlen vorgenommen. Man vermeidet durch Randomisation systematische Fehler durch prognostische Faktoren bzw. durch subjektive Faktoren des Behandlers. bekannte und unbekannte bewußte und unbewußte Keine taugliche Randomisation ist die • Alternative Behandlungszuordnung in der Reihenfolge der Studienaufnahme (ABABABAB......) • Zuordnung aufgrund der Initialen des Patientennamens (A-L: Behandlung A; M-Z: Behandlung B) • Zuordnung aufgrund des Geburtsdatums oder des Aufnahmedatums 15 Stratifikation Randomisation garantiert nicht, dass eine Ausbalancierung bezüglich eines bestimmten prognostischen Faktors gegeben ist. Will man dies sicherstellen, muss die Studie bezüglich dieses Faktors stratifiziert werden. Es erfolgt dann für jede Schicht eine gesonderte Randomisation. Die Schichten können auch durch Kombination von Faktoren definiert werden. Die Anzahl der Schichten ist allerdings sehr beschränkt und somit auch die Möglichkeit prognostische Faktoren bei der Planung optimal einzubeziehen High Risk Low Risk AA B A B B B B AAA B B A B AA B AA B B A B zeitlicher Ablauf 16 Verblindung Randomisation kann einen potentiellen subjektiven Einfluss durch Patient oder Arzt nicht eliminieren. Verblindung des Patienten (einfach blind) oder des Patienten und des Arztes (doppelblind) dient dazu, einen solchen subjektiven Einfluss zu eliminieren. Weitere Verblindung spielt bei Zwischenauswertungen eine Rolle, wenn alle Mitglieder der Studiengruppe gegenüber dem Ergebnis „verblindet“ gehalten werden, um eine Verzerrung durch eine am Ergebnis ausgerichtete vorzeitige Beendigung zu vermeiden. Independent (Data) Review Board Studienbiometrie wertet verblindet aus oder gibt die Auswertung an unabhängige Dritte ab 17 2. Datenerhebung und Datenmanagement CRF Codierung Kriterien und Defintionen Planung Durchführung Daten-erhebung -management Aus wertung Publikation 18 Biometrie und Datenmanagment in klinischen Studien Datenerhebung und Datenmanagement - d.h. die Dokumentation ist Grundvoraussetzungen für eine ordnungsgemäße Durchführung und Auswertung, ist eine Methodik des Sammelns und Bearbeitens klinischer Patientendaten zum Berichten, Folgern und Verallgemeinern von Therapieergebnissen, erfolgt nach einem prospektiven Konzept der Planung werden bestimmt von den Studienhypothesen und dem biometrischen Auswerteplan. ( und diese sind bestimmt vom Studienziel !!!) Das Studienziel bestimmt die Dokumentation und nicht umgekehrt. Das Studienprotokoll legt den Umfang der Dokumentation fest. 19 Case Report Form – CRF also der Dokumentationsbogen Papierform: Formulare festlegen, in welche die Patientendaten eingetragen werden. Sie sind zu drucken und müssen als Dokumentationsordner (Patientenorder) gebunden vorliegen. Ein Testlauf ist zu empfehlen. Elektronische Form: Formulare festlegen auf deren Grundlage die Software für die Eingabe der Patientendaten programmiert wird. Hardware festlegen. Hard und Software sind bereitzustellen, zu testen und in den Prüfzentren einzuführen. Anleitung und 'Hotline' sind nötig. Dokumentationsbögen nicht erst kurz vor Studienbeginn und nie nicht nach Einschluß der ersten Patienten fertigstellen, sondern bei Erstellung des Studienprotokolls als einen integrierten Bestandteil. 20 BEISPIEL Labordaten BESSER SCHLECHT NOCH BESSER 21 ÜBERLEBENSZEIT: gemessen ab Randomisation oder ab Therapiebeginn bis zum Tod besonders wichtig bei der Phase III Häufige Fehler sind Verwechslungen von Datumsangaben zu Diagnose, Klinikaufnahme, Erstuntersuchung Aufnahme in die Studie, Randomisation, Untersuchung vor Behandlungsbeginn, erstes Labor nach Behandlungsbeginn von Abschluss der Therapie und Abschluss der Studie, von "Abschlussbogen" und Nachsorgebogen (Post-Study) von Ausfülldatum des Arztes und letztem Follow-up Datum des Patienten. 22 BIOMETRIE im Ablauf einer Studie 3. Auswertung konfirmatorisch Signifikanztest, p-Wert, Konfidenzintervall) explorativ (Regressionsmodelle Planung Durch führung Daten - erhebung - -management Biometrische Auswertung Publikation 23 Überlebensrate => Überlebenskurve Die Überlebensrate ist eine statistische Kenngröße, die für ein Patientenkollektiv die Wahrscheinlichkeit angibt, dass ein Patient zu einem bestimmten Zeitpunkt noch am Leben ist. Die Überlebenskurve ist eine summarische Darstellung der Entwicklung der Überlebensrate im Zeitverlauf. Zusammen mit einer Anzeige der „Studienzeit“ aller Patienten ist die Überlebenskurve ist eine vollinformative Darstellung Schätzung von Überlebenskurven Kaplan-Meier (product limit – ) Schätzung Life-table method Vergleich von Überlebenskurven Log-Rank Test Gehan-Breslow Test Berücksichtigung von prognostischen Faktoren Stratifizierte Tests Cox-Model (proportional hazards model 24 25 Multiplizität Wendet man einen Test auf dem Signifikanzniveau 5% fünf mal an, so ist die Chance, daß mindestens einer ein falsch positives Ergebnis liefert, wesentlich größer als 5%. Multiplizität tritt in verschiedenen Formen auf: mehrfache Endpunkte mehrfache Behandlungen (mehr als drei) mehrfache Zwischenauswertungen Follow-up Auswertungen mehrfache Untergruppenanalysen 26 Das Problem mit den mehrfachen Hypothesen Fosella et al. JCO (2003) DC Docetaxel+Cisplatin DCb Docetaxel+Carboplatin Nicht-Unterlegenheit Überlegenheit Primärziel OS 1. 2. 3. 4. 408 406 VC Vinorelbine+Cisplatin DC DCb DC DCb not worse than not worse than better than better than 404 VC VC VC p= 0.044* VC p= 0.657* *covariate adjusted. • Es kann nicht alles auf dem Niveau von 0.05 getestet werden. • Die Interpretation „DC resulted in a more favorable response and overall ist nicht statistisch nachgewiesen 27 4.Bericht und Publikation Patientenfluss Patientenpopulationen Ergebnisinterpretation Multiplizität beachten Planung Durchführung Daten - -erhebung -management Aus wertung Bericht und Publikation 28 Den Patientenfluss in der Studie genau darstellen 29 Intention to Treat Auswertung Standpunkt des Patienten alle einschließbaren Patienten werden nach der ihnen zugeteilten Behandlung ausgewertet, ungeachtet dessen, wie sie behandelt wurden und wie sie sich im Verlauf der Studie verhielten Pocock (1983): “all eligible patients, regardless of compliance with protocol should be included in the analysis whenever possible“. Die ITT-Analyse als die primäre Auswertung aller randomisierten Patienten, reflektiert Probleme der klinischen Praxis und gibt die volle und unselektierte Information weiter. Aus der ITT können Patienten ausgeschlossen werden, schwerwiegende Abweichungen vom Studienprotokoll vorliegen wenn aber man muss dann alles sehr ausführlich begründen und nachweisen, dass man nicht informativ selektiert 30 PER-PROTOCOL (PP) AUSWERTUNG Standpunkt der Behandlung (und der Firma) Therapievergleich nur, wenn die Therapie auch angewendet wurde. daraus keine absolute Schlußfolgerung über die Wirksamkeit Pharmakologische Wirkung kann beurteilt werden. Aus der PP können Patienten ausgeschlossen werden, schwerwiegende Abweichungen in der Zuweisung der Behandlung, verbotene Begleitmedikation schlechte Compliance, loss to follow-up zu viele fehlende Angaben wenn 31 Beachte Die Biometrie/Statistik ist von Anbeginn der Planung einer Studie einzubinden Fragestellung und bisher bekanntes Wissen bestimmen die Hypothesen, das Zielkriterium und den relevanten bzw. klinisch interessierenden Unterschied und in deren Folge die Fallzahl. Verzerrung und Variabilität sind unsere unzertrennlichen Feinde. Verzerrung bekämpfen wir mit der randomisierten Studie Variabilität mit der ausreichenden Fallzahl. GCP und Guidelines betreffen neben den Patientenrechten ganz wesentlich die Qualität der Studien. Biometrie und Dokumentation sollten diese mit Augenmaß umsetzen. Und zur Dokumention nur noch den folgenden Ratschlag.... 32 do not hit people put things back where you found them wash your hands before your eat hold hands and stick together clean up your own mess dont take things that arent yours be aware of wonders 33