Biometrie und Datenmanagement in klinischen Studien

Werbung
BIOMETRIE UND DATENMANAGEMENT
IN KLINISCHEN STUDIEN
Lutz Edler
DKFZ - Deutsches Krebsforschungszentrum, Heidelberg
1.
2.
3.
4.
Planung und Studiendesign
Datenerhebung und Datenmanagement
Auswertung
Bericht und Publikation
1
From Sofie‘s World
Though many people recover from illness after taking a certain
type of medicine, this does not mean that it is the medicine which
cured them.
For this reason we need a large group of people who believe
that they are receiving the same medicine while in reality they are
getting only flour mixed with water.
Should these people also recover from their illness, then there
must be a third factor which is curing them - for example the
belief in the effectiveness of the medicine.
2
Biometrie und Datenmanagment in klinischen Studien
Klinische Studien
sind
prospektiv geplant und durchgeführte experimentelle Projekte
mit dem Ziel der Bestimmung optimaler standardisierter
Behandlungen für künftige Patienten.
Dazu werden
aus den patienten-bezogenen klinischen Daten
mittels quantifizierender statistischer Verfahren
Schlussfolgerungen zur Wirksamkeit und Sicherheit
gezogen.
STUDIENTYP
AUSGANGSSITUATION
prospektiv
Behandlungs- und Kontrollgruppe
randomisiert
Vergleich
3
Biometrie und Datenmanagment in klinischen Studien
Sowohl in der Planungs- als auch in der Auswertungsphase hat die
Biometrie
die wichtige Funktion, Studienergebnisse mit Studienhypothesen
mittels geeigneter statistischer Methodik zu verknüpfen.
Die Auswertung selbst erfordert die Bereitstellung korrekter Daten,
durch optimale Datenerhebung und ein effizientes
Datenmanagement
Statistik ist eine Zusammenfassung von Methoden, die uns erlauben,
vernünftige optimale Entscheidungen im Falle von Ungewissheit zu treffen.
A.Wald
4
BIOMETRIE im Ablauf einer Studie
1. Planung mit Studiendesign
Formulierung der Fragestellung
Ableitung der Prüfhypothesen
Festlegung einer ausreichenden Fallzahl
Stratifikation, Randomisation
Planung
Durch führung
Daten
-
erhebung
-
-management
Biometrische
Auswertung
Publikation
5
Biometrie und Datenmanagment in klinischen Studien
Die drei großen Fragestellungen
Frage der (Un)Genauigkeit (z.B. Konfidenzintervalle)
In einer Studie wird in einer Patientenpopulatiuon
ein bestimmtes Ergebnis (z.B. Responserate)
beobachtet.
Mit welcher Präzision können Aussagen getroffen werden?
Frage der Aussagenprüfung (Testtheorie)
Über eine bestimmte Substanz besteht eine
theoretische Vorstellung über ihre Wirksamkeit
(z.B. besser als Standardmedikation).
Wird diese durch die empirischen Daten gestützt oder nicht?
Frage der Prädiktion (Regression)
Es liegen auf ausreichender Basis empirische klinischer Daten
für eine Gruppe von Patienten vor
Kann eine Prognose des Krankheitsverlaufs gegeben werden?
6
95% Vertrauensbreich für die Ansprechrate von 20%
7
Biometrie und Datenmanagment in klinischen Studien
Frage der Testtheorie
Nullhypothese:
Eine therapeutische Maßnahme sei unwirksam bzw.
im Vergleich zu einer anderen Behandlung gleich effizient.
Alternativhypothese:
Eine therapeutische Maßnahme sei wirksam bzw. sie weist sie
im Vergleich zu einer anderen Behandlung einen
unterschiedlichen Behandlungserfolg auf.
Anmerkung:
zweiseitige Fragestellung (two-sided test)
einseitige Fragestellung (one-sided test)
!!! NEU:
Nicht-Unterlegenheit
Unterschied
Überlegenheit
einseitige Fragestellung (one-sided test)
mit einer Äquivalenzgrenzsgrenze
8
Beispiel
Nullhypothese:
Die Wirksamkeit des neuen Medikamentes ist höchstens gleich
gut, wie die der bisherigen Standardmedikation
Prob(Response) = 0,2
Alternativhypohese:
Die Wirksamkeit des neuen Medikamentes ist besser, als
die der bisherigen Standardmedikation:
Prob(Response) = 0.3
einseitige oder zweiseitige Fragestellung:
 einseitige ist trennschärfer als eine zweiseitige
aber
 Richtung der vermuteten Abweichung geht in die Testprozedur ein
 Festlegen der Hypothesen vor der Durchführung
9
Testverfahren
Die Irrtumswahrscheinlichkeit α (α-Fehler, Fehler 1.Art)
ist die Wahrscheinlichkeit,
mit der die Nullhypothese fälschlich abgelehnt wird.
Die Irrtumswahrscheinlichkeit β (β-Fehler, Fehler 2.Art)
ist die Wahrscheinlichkeit, mit der die
Alternativhypothese fälschlich abgelehnt wird.
1. Es gibt also immer zwei Irrtumswahrscheinlichkeiten!
2. Es handelt sich nicht um die Wahrscheinlichkeit einer
irrtümlichen Behandlung: bedingte Wahrscheinlichkeit!
vgl: unsere Kontroverse im DÄBlatt
10
Kontroverse im DÄBlatt: Windeler, Edler, Antes, 2004
Wolfgang Weihe 26.3.2004: „Für alle guten und sehr guten Studien, die auf dem 5-ProzentNiveau signifikant sind und mit denen wir unser therapeutisches Tun begründen, gilt, dass
die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt, nicht bei fünf
Prozent, sondern irgendwo zwischen zehn Prozent (sehr selten) und 40 Prozent (häufig)
liegt.”
im ersten Teil (A) des Satzes eine andere Definition als im zweiten (B).
A:
P (signifikante Studie | Nullhypothese ist richtig).
“Wahrscheinlichkeit für ein signifikantes Studienergebnis
unter der Bedingung, dass die Nullhypothese richtig ist”.
B:
P (Nullhypothese ist richtig | signifikante Studie).
“Wahrscheinlichkeit” dafür, dass die Nullhypothese richtig ist,
unter der Bedingung, dass eine Studie ein signifikantes Ergebnis liefert.
Die B-Wahrscheinlichkeit gibt es im Sinn einer frequentistischen Statistik nicht.
“Nullhypothese ist richtig”, ist nicht beobachtbar, d.h. es ist nie zu entscheiden,
wann dieser Umstand eingetreten ist und wann nicht.
Damit kann diese “Wahrscheinlichkeit” nicht quantifiziert werden.
11
Beispiel
(einseitige Alternative, Test gegen festen Wert)
Eine Pharmafirma hat ein neues Medikament entwickelt, von dem vermutet
wird, dass es die Heilungschance bei einer bestimmten Krankheit von 20%
(Erfolgschance bei Standardmedikation) auf 30% erhöht.
Man plant eine Studie mit n=30 (n=100) Patienten.
Wie groß ist die Chance, den vermuteten Effekt (10%) nachzuweisen?
Berechnung der Power (Fallzahlplanung)
Wie wahrscheinlich ist es, dass bei Gültigkeit einer bestimmten
Alternativhypothese, diese mit dem Test auch tatsächlich erkannt wird?
Bei n=30 Patienten und einer tatsächlichen Steigerung der Responserate
von 20% auf 30%, beträgt die Power lediglich 40% .
Bei n=100 steigt die Power auf 77% .
12
1. Bei einer Signifikanz auf dem Niveau 5% oder 1% bleibt
ein ‚Restrisiko‘ von dieser Höhe dafür, daß die neue
Therapie doch nicht besser ist.
2. Eine Macht von 90% besagt, daß bessere Therapien zu
10% nicht erkannt werden. Wenn Studien aus Gründen der
Machbarkeit lediglich mit einer Macht zwischen 80% und
90% geplant werden, zeigt jede fünfte bis zehnte Studie
eine vorhandene Wirksamkeit nicht.
3. Signifikanz hängt von der Fallzahl ab. So kann es
passieren dass kleine und klinisch nicht mehr relevante
Unterschiede signifikant werden, wenn die Fallzahl nur
hinreichend hoch ist.
13
Biometrie und Datenmanagment in klinischen Studien
Bestimmung der Fallzahl in der Praxis
Realistischerweise erwartete Unterschiede sind oft relativ klein und
erfordern bei entsprechenden Vorgaben in Bezug auf die
Fehlerraten (α, β) häufig unrealistisch große Fallzahlen.
Auswege:
Anderer Endpunkt (Erfolgskriterium)
Lockern der Ein/Ausschlußkriterien der Studie
Multizentrische Studie
Längere Studiendauer
oder
Verzicht auf die Studie
14
Was ist Randomisation?
Randomisation ist die zufällige Zuordnung der Behandlungen
zu den Untersuchungseinheiten bei der Anlage von geplanten Versuchen.
Sie soll die Zufälligkeit der Stichprobe im Sinne der mathematischen
Statistik garantieren und ist Grundlage eines Kausalitätsschlusses.
Die zufällige Zuordnung wird mit Tabellen (Algorithmen) von
Zufallszahlen vorgenommen.
Man vermeidet durch Randomisation systematische Fehler durch
prognostische Faktoren bzw. durch subjektive Faktoren des Behandlers.
bekannte und unbekannte
bewußte und unbewußte
Keine taugliche Randomisation ist die
• Alternative Behandlungszuordnung in der Reihenfolge der Studienaufnahme
(ABABABAB......)
• Zuordnung aufgrund der Initialen des Patientennamens
(A-L: Behandlung A; M-Z: Behandlung B)
• Zuordnung aufgrund des Geburtsdatums oder des Aufnahmedatums
15
Stratifikation
Randomisation garantiert nicht, dass eine Ausbalancierung bezüglich eines
bestimmten prognostischen Faktors gegeben ist.
Will man dies sicherstellen, muss die Studie bezüglich dieses Faktors
stratifiziert werden.
Es erfolgt dann für jede Schicht eine gesonderte Randomisation.
Die Schichten können auch durch Kombination von Faktoren definiert
werden.
Die Anzahl der Schichten ist allerdings sehr beschränkt und somit auch die
Möglichkeit prognostische Faktoren bei der Planung optimal einzubeziehen
High Risk
Low Risk
AA B A B B
B B AAA B
B A B AA B
AA B B A B
 zeitlicher Ablauf 
16
Verblindung
Randomisation kann einen potentiellen subjektiven Einfluss durch Patient
oder Arzt nicht eliminieren.
Verblindung des Patienten (einfach blind) oder des Patienten und des
Arztes (doppelblind) dient dazu, einen solchen subjektiven Einfluss zu
eliminieren.
Weitere Verblindung spielt bei Zwischenauswertungen eine Rolle, wenn
alle Mitglieder der Studiengruppe gegenüber dem Ergebnis „verblindet“
gehalten werden, um eine Verzerrung durch eine am Ergebnis
ausgerichtete vorzeitige Beendigung zu vermeiden.
 Independent (Data) Review Board
 Studienbiometrie wertet verblindet aus oder
gibt die Auswertung an unabhängige Dritte ab
17
2. Datenerhebung und Datenmanagement
CRF
Codierung
Kriterien und Defintionen
Planung
Durchführung
Daten-erhebung
-management
Aus
wertung
Publikation
18
Biometrie und Datenmanagment in klinischen Studien
Datenerhebung und Datenmanagement - d.h. die Dokumentation

ist Grundvoraussetzungen für eine ordnungsgemäße Durchführung
und Auswertung,

ist eine Methodik des Sammelns und Bearbeitens klinischer
Patientendaten zum Berichten, Folgern und Verallgemeinern
von Therapieergebnissen,

erfolgt nach einem prospektiven Konzept der Planung

werden bestimmt von den Studienhypothesen und
dem biometrischen Auswerteplan.
( und diese sind bestimmt vom Studienziel !!!)
Das Studienziel bestimmt die Dokumentation und nicht umgekehrt.
Das Studienprotokoll legt den Umfang der Dokumentation fest.
19
Case Report Form – CRF
also der Dokumentationsbogen
Papierform: Formulare festlegen, in welche die Patientendaten eingetragen
werden. Sie sind zu drucken und müssen als Dokumentationsordner
(Patientenorder) gebunden vorliegen. Ein Testlauf ist zu empfehlen.
Elektronische Form: Formulare festlegen auf deren Grundlage die Software
für die Eingabe der Patientendaten programmiert wird. Hardware festlegen.
Hard und Software sind bereitzustellen, zu testen und in den Prüfzentren
einzuführen. Anleitung und 'Hotline' sind nötig.
Dokumentationsbögen nicht erst kurz vor Studienbeginn und nie nicht nach
Einschluß der ersten Patienten fertigstellen, sondern bei Erstellung des
Studienprotokolls als einen integrierten Bestandteil.
20
BEISPIEL
Labordaten
BESSER
SCHLECHT
NOCH BESSER
21
ÜBERLEBENSZEIT:
gemessen ab Randomisation oder ab Therapiebeginn
bis zum Tod
besonders wichtig bei
der Phase III
Häufige Fehler sind Verwechslungen
 von Datumsangaben zu
Diagnose, Klinikaufnahme, Erstuntersuchung
Aufnahme in die Studie, Randomisation,
Untersuchung vor Behandlungsbeginn,
erstes Labor nach Behandlungsbeginn
 von Abschluss der Therapie und Abschluss der Studie,
 von "Abschlussbogen" und Nachsorgebogen (Post-Study)
 von Ausfülldatum des Arztes und letztem Follow-up Datum
des Patienten.
22
BIOMETRIE im Ablauf einer Studie
3. Auswertung
konfirmatorisch
Signifikanztest,
p-Wert,
Konfidenzintervall)
explorativ (Regressionsmodelle
Planung
Durch führung
Daten
-
erhebung
-
-management
Biometrische
Auswertung
Publikation
23
Überlebensrate => Überlebenskurve
Die Überlebensrate ist eine statistische Kenngröße, die für ein
Patientenkollektiv die Wahrscheinlichkeit angibt,
dass ein Patient zu einem bestimmten Zeitpunkt noch am Leben ist.
Die Überlebenskurve ist eine summarische Darstellung der Entwicklung
der Überlebensrate im Zeitverlauf.
Zusammen mit einer Anzeige der „Studienzeit“ aller Patienten ist die
Überlebenskurve ist eine vollinformative Darstellung
Schätzung von Überlebenskurven
Kaplan-Meier (product limit – ) Schätzung
Life-table method
Vergleich von Überlebenskurven
Log-Rank Test
Gehan-Breslow Test
Berücksichtigung von prognostischen Faktoren
Stratifizierte Tests
Cox-Model (proportional hazards model
24
25
Multiplizität
Wendet man einen Test auf dem Signifikanzniveau 5% fünf mal
an, so ist die Chance, daß mindestens einer ein falsch
positives Ergebnis liefert, wesentlich größer als 5%.
Multiplizität tritt in verschiedenen Formen auf:
mehrfache Endpunkte
mehrfache Behandlungen (mehr als drei)
mehrfache Zwischenauswertungen
Follow-up Auswertungen
mehrfache Untergruppenanalysen
26
Das Problem mit den mehrfachen Hypothesen
Fosella et al. JCO (2003)
DC Docetaxel+Cisplatin
DCb Docetaxel+Carboplatin
Nicht-Unterlegenheit
Überlegenheit
Primärziel OS
1.
2.
3.
4.
408
406
VC Vinorelbine+Cisplatin
DC
DCb
DC
DCb
not worse than
not worse than
better
than
better than
404
VC
VC
VC p= 0.044*
VC p= 0.657*
*covariate adjusted.
• Es kann nicht alles auf dem Niveau von 0.05 getestet werden.
• Die Interpretation
„DC resulted in a more favorable response and overall
ist nicht statistisch nachgewiesen
27
4.Bericht und Publikation
Patientenfluss
Patientenpopulationen
Ergebnisinterpretation
Multiplizität beachten
Planung
Durchführung
Daten
-
-erhebung
-management
Aus
wertung
Bericht
und
Publikation
28
Den Patientenfluss in der Studie genau darstellen
29
Intention to Treat Auswertung
Standpunkt des Patienten
alle einschließbaren Patienten werden nach der ihnen zugeteilten
Behandlung ausgewertet, ungeachtet dessen, wie sie behandelt wurden
und wie sie sich im Verlauf der Studie verhielten
Pocock (1983): “all eligible patients, regardless of compliance with protocol
should be included in the analysis whenever possible“.
Die ITT-Analyse als die primäre Auswertung aller randomisierten Patienten,
reflektiert Probleme der klinischen Praxis und gibt die volle und
unselektierte Information weiter.
Aus der ITT können Patienten ausgeschlossen werden,
schwerwiegende Abweichungen vom Studienprotokoll vorliegen
wenn
aber man muss dann alles sehr ausführlich begründen
und nachweisen, dass man nicht informativ selektiert
30
PER-PROTOCOL (PP)
AUSWERTUNG
Standpunkt der Behandlung (und der Firma)
Therapievergleich nur, wenn die Therapie auch angewendet wurde.
 daraus keine absolute Schlußfolgerung über die Wirksamkeit
 Pharmakologische Wirkung kann beurteilt werden.
Aus der PP können Patienten ausgeschlossen werden,
schwerwiegende Abweichungen in der Zuweisung der Behandlung,
verbotene Begleitmedikation
schlechte Compliance,
loss to follow-up
zu viele fehlende Angaben
wenn
31
Beachte
Die Biometrie/Statistik ist von Anbeginn der Planung einer Studie
einzubinden
Fragestellung und bisher bekanntes Wissen bestimmen die Hypothesen,
das Zielkriterium und den relevanten bzw. klinisch interessierenden
Unterschied und in deren Folge die Fallzahl.
Verzerrung und Variabilität sind unsere unzertrennlichen Feinde.
Verzerrung bekämpfen wir mit der randomisierten Studie
Variabilität mit der ausreichenden Fallzahl.
GCP und Guidelines betreffen neben den Patientenrechten ganz
wesentlich die Qualität der Studien. Biometrie und Dokumentation sollten
diese mit Augenmaß umsetzen.
Und zur Dokumention nur noch den folgenden Ratschlag....
32
do not hit people
put things back
where
you found them
wash your hands
before your eat
hold hands and
stick together
clean up your
own mess
dont take things
that arent yours
be aware of wonders
33
Herunterladen