Auswahl der Studien - Universität Hamburg

1. Datenbanken ..................................................................................................................... 1
2. Suchstrategie ............................................................................................................. 1
2.1 Suchbegriffe ............................................................................................................. 1
2.2 Methodische Filter .................................................................................................... 2
2.2.1 Randomised Controlled Trials and Systematic Reviews ..................................... 2
2.2.2 Diagnose............................................................................................................ 3
2.2.3 Therapie............................................................................................................. 3
2.2.4 Ätiologie, Ursache oder Nebenwirkungen .......................................................... 3
2.2.5 Prognose, Natürlicher Krankheitsverlauf ............................................................ 4
2.3 Ergänzende Informationen .............................................................................................. 4
3. Auswahl der publizierten Studien....................................................................................... 4
3.1 Darstellung der Stärke der Evidenz: ................................................................................ 4
3.2 Überprüfung der methodischen Qualität kontrollierter klinischer Studien ......................... 8
4. Literatur ............................................................................................................................. 9
1. Datenbanken
Nach originalen Forschungsarbeiten und systematischen Übersichtsartikeln, Meta-Analysen,
Leitlinien und HTA-Reports wird in folgenden Datenbanken systematisch gesucht:
Cochrane Library
Medline (Webspirs/Silverplatter)
CINAHL
EMBASE
Sowie in den frei zugänglichen Datenbanken von DIMDI:
Gerolit
PSYNDEX
Weiterhin wird themenspezifisch bei deutschen Fachgesellschaften angefragt sowie eine
Internetsuche angestrebt.
Auf unpublizierte Daten wird verzichtet.
2. Suchstrategie
2.1 Suchbegriffe
Der erste Schritt zur Lösung eines Problems ist die Formulierung einer gezielten Frage
(Flemming 1998). Fragestellungen, die an unser Projektteam gestellt werden, werden in eine
wissenschaftliche Fragestellung transformiert, so dass die folgende Suche in den oben
genannten Datenbanken effizient ist.
Sie umfasst vier Komponenten: die Beschreibung und Eingruppierung des Patienten, das
Problem, die Intervention (diagnostisches Instrument, therapeutische Maßnahme,
Prognosefaktor oder dergleichen), evtl. dazu eine Alternative und das Ziel (outcome).
Element
Hilfe
Das Problem des Patienten
„Wie generalisiert man das
Problem zu einer
Gruppenbeschreibung“
„Welche Handlung erwäge ich
vornehmlich?“
Die in Frage gestellte
Intervention oder zur Debatte
stehende (Test, Behandlung,
Beispiel
Bei älteren Menschen über 60
Jahren mit x...
...würde die Maßnahme y...
Pflege)
Der Vergleich oder die
Alternative
Das gewünschte Ziel
„Was ist die andere Möglichkeit“ ... im Vergleich zum Beibehalten
der Maßnahme z....
„Was möchte ich/der Patient
...zu einer Verbesserung seiner
erreichen.“
Situation z.B.
Temperatursenkung führen?
Deutschsprachige Begriffe werden in englische übersetzt.
2.2 Methodische Filter
Für die methodologische Limitierung der Literatursuche in Medline wird die im folgenden
beschriebene Suchstrategie benutzt.
Diese von Anne McKibbon erstellte und vom Zentrum für Evidenz-basierte Medizin in Oxford
publizierte Suchtechnik (http://cebm.jr2.ox.ac.uk/docs/searching.html) ist entwickelt worden,
um Studien zur Entscheidungsfindung (decision-making) zu identifizieren. Sie ist für jeden,
der Fragestellung zugrundeliegenden besten Studientyp angelegt.
Diese Suchstrategie wird mit einer sinnvollen themenspezifischen Stichwortsuche
kombiniert. Sie grenzt die Suche also durch methodische Filter auf relevante Studiendesigns
ein.
2.2.1 Randomisiert-kontrollierte Studien und Systematische Reviews
1. RANDOMIZED-CONTROLLED-TRIAL in PT (use LIMIT)
2. META-ANALYSIS in PT (use LIMIT)
3. CONTROLLED-CLINICAL-TRIAL in PT (use LIMIT)
4. CLINICAL-TRIAL in PT (use LIMIT)
5. random* in ti,ab,mesh
6. (meta?anal* or meta analy*) in ti,ab,mesh
7. (doubl* or singl*) and blind* in ti,ab,mesh
8. explode CLINICAL-TRIALS (use THESAURUS)
9. crossover in ti,ab,mesh
10. 1 or 2 or 3 or 4 or 5 or 6 or 7 or 8 or 9
Um die Sensitivität zu erhöhen kann folgendes versucht werden:
11. (clin* trial*) in ti,ab,mesh
12. control* near (trial* or stud*) in ti,ab,mesh
13. (singl* or doubl* or tripl* or trebl*) near (blind* or mask*) in ti,ab,mesh
14. placebo* in ti,ab,mesh
15. RESEARCH-DESIGN (use THESAURUS)
16. TG=COMPARATIVE STUDY (use LIMIT Checktags)
17. 10 or 11 or 12 or 13 or 14 or 15 or 16
Um die Suche auf systematische Übersichtsarbeiten zu limitieren:
18. REVIEW-ACADEMIC in PT (use LIMIT)
19. REVIEW-TUTORIAL in PT (use LIMIT)
20. systematic* near (review* or overview*) in ti,ab,mesh
21. (meta?analy* or meta analy*) in ti,ab,mesh,p
22. 1 or 2 or 3 or 4 or 5
2.2.2 Diagnose
Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus;
Andere Begriffe stehen für die Freitextsuche:



Beste Einzelbegriffsuche:
o sensitivity in ti,ab,mesh
Suche mit maximaler Sensitivität:
o sensitivity-and-specificity or
o sensitivity in ti,ab,mesh or
o diagnosis in mesh or
o radionuclide imaging in mesh or
o diagnostic use in mesh or
o specificity in ti,ab,mesh
Suche mit maximaler Spezifität:
o exp sensitivity-and-specificity or
o (predictive and value*) in ti,ab,mesh
2.2.3 Therapie
Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus;
Andere Begriffe stehen für die Freitextsuche:



Beste Einzelbegriffsuche:
o clinical-trial in pt
Suche mit maximaler Sensitivität:
o randomized-controlled-trial in pt
o drug therapy in mesh or
o therapeutic use in mesh or
o random* in ti,ab,mesh
Suche mit maximaler Spezifität:
o (double and blind*) in ti,ab,mesh or
o placebo* in ti,ab,mesh
2.2.4 Ätiologie, Ursache oder Nebenwirkungen
Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus;
Andere Begriffe stehen für die Freitextsuche:



Beste Einzelbegriffsuche:
o risk in ti,ab,mesh
Suche mit maximaler Sensitivität:
o exp cohort-studies
o exp risk or
o (odds and ratio*) in ti,ab,mesh or
o (relative and risk) in ti,ab,mesh or
o (case and control*) in ti,ab,mesh
Suche mit maximaler Spezifität:
o case-control-studies or
o
cohort-studies
2.2.5 Prognose, Natürlicher Krankheitsverlauf
Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus;
Andere Begriffe stehen für die Freitextsuche:



Beste Einzelbegriffsuche:
o exp cohort-studies
Suche mit maximaler Sensitivität:
o incidence in mesh or
o exp mortality or
o follow-up studies or
o mortality in mesh or
o prognos* in ti,ab,mesh
o predict* in ti,ab,mesh
o course in ti,ab,mesh
Suche mit maximaler Spezifität:
o prognosis in mesh
o survival-analysis
2.3 Ergänzende Informationen
Bei den in Medline gefundenen Studien wird nach Kommentaren und Korrespondenz zu den
Artikeln gesucht. Dies erscheint sinnvoll, da methodologische Diskussionen nach
Veröffentlichung der originalen Studie erscheinen und weiterführende Informationen zu Bias
und Verzerrung geben können.
3. Auswahl der publizierten Studien
Die Auswahl der gefundenen Studien in den verschiedenen Datenbanken erfolgt nach
folgendem Schema:
1. Es wird grundsätzlich nach der für die jeweilige Fragestellung bestmögliche externe
Evidenz gesucht. Dies erfolgt durch die Eingruppierung der Studien in die
Evidenzstärke:
2. Es wird grundsätzlich die methodische Qualität der Studien erhoben und nur
hochwertige Studien in die Übersichtsarbeit einbezogen
3.1 Darstellung der Stärke der Evidenz:
Die methodologische Beurteilung einer ausgewählten Publikation zu einer definierten
Fragestellung ist abhängig von dem gewählten Studiendesign. Dies beeinflusst die Validität
der Ergebnisse und die daraus resultierenden Schlussfolgerungen. Für jede Fragestellung
gibt es ein ideales Studiendesign zur Beantwortung der Forschungsfrage. Ebenso sind an
die unterschiedlichen Studiendesigns zur Überprüfung der Aussagen spezifische Fragen zu
stellen1 . Die Beurteilung der Validität der Studien ist trotz eines einheitlich gewählten
Eine Zusammenstellung der „Critical Appraisal“ Bögen findet sich unter:
http://cebm.jr2.ox.ac.uk/docs/teachingresources,
http://www.sign.ak.uk/guidelines/fulltext/50/annexc.html
1
Bewertungsmaßstabes, wie er durch diese Bögen gegeben ist, mindestens abhängig von der
Kompetenz der beurteilenden Person und der Fragestellung. Deshalb sollten im
Bewertungsprozess die Studien, wie bei Metaanalysen und Übersichtsarbeiten üblich,
unabhängig voneinander von zwei Wissenschaftlern beurteilt werden. Der Prozess einer
Einigung bei abweichenden Beurteilungsergebnissen muss vorher definiert werden.
Die Darstellung der „levels of evidence“, also der Evidenz-Stärke soll Aufschluss darüber
geben wie gut die Fragestellung durch die Forschung bzw. der in die Übersichtsarbeit
eingeschlossenen Studien beantwortet werden können. Für diese Einordnung stehen
mittlerweile einige Instrumente zur Verfügung. Die ÄZQ (Ärztliche Zentralstelle für
Qualitätssicherung) hat für die Einteilung von Therapiestudien nach Evidenz-Stärken das von
der SIGN (Scottish Intercollegiate Guidelines Network, http://www.sign.ac.uk) übernommen,
das ursprünglich vom AHCPR (Agency for Health Care Policy and Research) stammt und
mittlerweile von SIGN aufgrund eines Reviews überarbeitet wurde (siehe Tabelle 1).
Tabelle1: Levels of Evidence
Oxford Centre for Evidence- Agency for Health Care Policy
based Medicine Levels of and Research /
Evidence
Ärztliche Zentralstelle für
Qualitätssicherung
Level Therapy/Prevention,
Therapy
Level
Aetiology/Harm
1a
SR (with homogeneity*) of
Evidence obtained from meta1++
RCTs
analysis of randomised controlled
trial
1b
Individual RCT (with narrow …from at least one randomised 1+
Confidence Interval‡)
controlled trial
1c
All or none§
2a
SR (with homogeneity* ) of
cohort studies
2b
Individual cohort study
(including low quality RCT;
e.g., <80% follow-up)
2c
"Outcomes" Research;
Ecological studies
3a
SR (with homogeneity*) of
case-control studies
3b
4
5
1…from at least one well-designed 2++
controlled study without
randomisation
…from at least one other type of 2+
well-designed quasi-experimental
study
2-
…from well-designed non3
experimental descriptive studies,
such as comparative studies and
case studies
Individual Case-Control Study
4
Case-series (and poor quality …from expert committee reports
cohort and case-control
or opinions and/or clinical
studies§§ )
experiences or respected
authorities
Expert opinion without explicit
critical appraisal, or based on
physiology, bench research or
"first principles"
Scottish Intercollegiate Guidelines
Network
Not specified
High quality meta-analyses,
systematic s, or RCTs with a very low
risk of bias
Well conducted meta analyses,
systematic reviews of RCTs, or RCTs
with a low risk of bias
Meta analyses, systematic reviews of
RCTs, or RCTs with a high risk of bias
High quality systematic reviews of
case-control or cohort studies
High quality case-control or cohort
studies with a very low risk of
confounding, bias, or chance and a
high probability that the relationship is
causal
Well conducted case control or cohort
studies with a low risk of confounding,
bias or chance and a moderate
probability that the relationship is
causal
Case control or cohort studies with a
high risk of confounding bias, or
chance and a significant risk that the
relationship is not causal
Non-analytic studies, e.g. case report,
case series
Expert opinion
Bei Ansicht der Tabelle wird deutlich, dass die Aussagen über den notwendigen Grad der
Evidenz differieren. Ob die Einstufung von Aussagen z.B. in Leitlinien in Evidenz-Stärken
Einfluss auf die Entscheidung von Klinikern hat, wurde bislang noch nicht untersucht.
Weiterhin sind die Klassifizierungsinstrumente selbst kaum validiert worden. In den
Benutzermanualen zur Einstufung von Evidenz-Stärken müsste ein Hinweis auf die klinische
Relevanz der Studienergebnisse erfolgen. Dieser Punkt kann zwar bei der Formulierung von
Ein- und Ausschlusskriterien für Studien durch die Definition von Fragestellung und Ziel der
Leitlinien bzw. Studien berücksichtigt werden, sollte jedoch auch bei der Einstufung in
Evidenz-Stärken stattfinden.
Bislang verwendet die Cochrane Collaboration kein Instrument zur Einstufung der EvidenzStärke. Sie verweist auf die Reviewgruppen ein Verfahren zu definieren, wonach die
Evidenz-Stärke für die jeweilige Fragestellung beurteilt wird. (Cochrane 2001 Reviewers
Handbook). Bei einigen Leitlinien wurde diese Diskrepanz in der Bewertung der Evidenz
dadurch berücksichtigt, dass sie explizit erwähnen, zwar einen standardisierten Prozess zur
Ermittlung der Evidenz-Stärke eingesetzt zu haben, jedoch Studien, die eine Hypothese
testeten, die direkt in Verbindung mit primären Ergebnisparametern in randomisierten
Designs standen, mehr Gewicht zusprachen (Schiffer et al. 2001).
Um jeweils nur die bestmögliche Evidenz Zugrundezulegen wird im Rahmen der Erstellung
einer systematischen Datenbank für Gesundheitsfachberufe auf ein einheitliches
Messinstrument zurückgegriffen. Da es durchaus sinnvoll ist auf die für jede Fragestellung
bestmögliche Evidenz zugrückzugreifen und dies durch unterschiedliche Studiendesigns
gewährleistet werden kann, wird im Rahmen dieses Projektes auf die „Levels of Evidence“
vom Centre of Evidence-based Medicine in Oxford zurückgegriffen
(http://cebm.jr2.ox.ac.uk/docs/levels.html) (siehe Tabelle 2).
Zum besseren Verständnis haben wir diese für das Projekt übersetzt:
Tabelle 2: Oxford Centre for Evidence-based Medicine Levels of Evidence (Mai 2001)
Differential
Ökonomische - und
Diagnose/Symptom
Entscheidungsanalyse
Prävalenzstudie
SR (mit Homogenität*) SR (mit
SR (mit Homogenität*) von SR (mit Homogenität*)
der eingeschlossenen Homogenität*) der prospektiven
von Level 1
Kohortenstudien;
Level 1
Kohortenstudien
ökonomischen
Klinische
diagnostischen
Studien
Entscheidungsfindung Studien; CDR† mit
(CDR†) validiert in
1b Studien von
verschiedenen
verschiedenen
Populationen
klinischen Zentren
Einzelne
Validierungs-**
Prospektive
Analyse basiert auf
Kohortenstudie mit > Kohortenstudie Kohortenstudie mit guter klinisch sinnvollen
80%
mit gutem†††
Nachbeobachtungsrate**** Kosten oder
Nachbeobachtungsrate; Referenzstandard;
Alternativen;
CDR† validiert in einer oder getesteter
systematische(r)
einzelnen Population CDR† in einem
Review(s) der
klinischem
Evidenz; und
Zentrum
Einbeziehung einer
Sensitivitätsanalyse
Alle oder keiner
Absolute SpPins Alle oder keiner Fallserie Absolute
Fallserie
und SnNouts††
ökonomische KostenNutzen-Analyse ††††
SR (mit Homogenität*) SR (mit
SR (mit Homogenität*) von SR (mit Homogenität*)
von entweder
Homogenität*) von 2b und besseren Studien von Level >2
retrospektiven
Level >2
ökonomischen
Kohortenstudien oder diagnostischen
Studien
Studien
unbehandelten
Kontrollgruppen in
RCTs
Retrospektive
Explorative**
Retrospektive
Analyse basiert auf
Kohortenstudie oder Kohortenstudie Kohortenstudie, oder
klinisch sinnvollen
Nachbeobachtungsrate mit gutem†††
geringe
Kosten oder
von unbehandelten
Referenzstandard; Nachbeobachtungsrate
Alternativen;
Kontrollpatienten in
CDR† nach
begrenzte(r) Review
Level Therapie/Prävention,
Prognose
Ätiologie/Nebenwirkungen
1a
Systematischer Review
(SR) (mit Homogenität* von
Randomisiert-kontrollierten
Studien (RCTs)
1b
Einzelner RCT (mit engem
Konfidenzintervall‡)
1c
Alle oder keiner §
2a
SR (mit Homogenität* ) der
Kohortenstudien
2b
Einzelne Kohorten Studie
(eingeschlossen RCT mit
schlechter Qualität; z.B.
<80%
Nachbeobachtungsrate)
Diagnose
einem RCT; Ableitung
einer CDR† oder
lediglich validiert bei
einem Teil der
Stichprobe§§§
Ergebnisforschung
der Evidenz, oder
einzelne Studie; und
Einschluss multivariabler
Sensitivitätsanalyse
Ergebnisforschung;
Ökologische Studien
Audit oder
Ökologische Studien
Ergebnisforschung
SR (mit Homogenität*) von
SR (mit
SR (mit Homogenität*) von SR (mit Homogenität*)
Fall-Kontroll-Studien
Homogenität*) von 3b und besseren Studien von 3b und besseren
3b und besseren
Studien
Studien
Einzelne Fall-Kontroll
NichtNicht-konsekutive
Analyse basiert auf
Studie
konsekutive
Kohortenstudie oder sehr limitierte Alternativen
Studie; oder ohne limitierte Population
oder Kosten, qualitativ
Konsistenz der
schlechte Berechnung
angewendeten
der Daten, aber
Referenzstandards
Einschluss der
Sensitivitätsanalyse
mit klinisch relevanten
Variationen.
Fall-Serie (und qualitative
Fall-Serie (und
Fall-Kontrolle
Fall-Serie oder veralteter Analyse ohne
Studie, schlechte Referenzstandard
schlechte Kohorten- und Fall- qualitative schlechte
Sensitivitätsanalyse
Kontroll-Studien)
prognostische
oder nicht
Kohortenstudien)
unabhängige
Referenzstandards
Expertenmeinung ohne
Expertenmeinung
Expertenmeinung Expertenmeinung ohne Expertenmeinung
kritische Analyse oder basiert ohne kritischer Analyse ohne kritische
kritische Analyse oder
ohne kritische Analyse
auf physiologischer oder
oder basiert auf
Analyse oder
basiert auf physiologischer oder basiert auf
experimenteller Forschung physiologischer oder
basiert auf
oder experimenteller
ökonomischer Theorie
oder "Grundprinzipien"
experimenteller
physiologischer
Forschung oder
oder
Forschung oder
oder
"Grundprinzipien"
"Grundprinzipien"
"Grundprinzipien"
experimenteller
Forschung oder
"Grundprinzipien"
2c
3a
3b
4
5
Derivation oder
lediglich validiert
bei einem Teil der
Stichprobe§§§
oder Basisdaten
Entwickelt von Bob Phillips, Chris Ball, Dave Sackett, Doug Badenoch, Sharon Straus, Brian Haynes, Martin
Dawes seit November 1998.
Übersetzt und publiziert mit freundlicher Genehmigung von Bob Phillips durch Gabriele Schlömer, FR
Gesundheit, Universität Hamburg
Anmerkungen
Benutzer können ein Minuszeichen “-“ verwenden, um den Grad anzuzeigen, der fehlt um zu einer schlüssigen Antwort zu
kommen, weil:


ENTWEDER ein einzelnes Ergebnis mit breitem Konfidenzintervall (z.B. eine ARR ist in einem RCT statistisch
nicht signifikant aber der Konfidenzintervall schließt klinisch relevante Nebenwirkungen und Nutzen nicht aus)


ODER ein systematischer Review mit besorgniserregender (und statistisch signifikanter) Heterogenität vorliegt.
Solche Evidenz ist uneinheitlich und kann deshalb nur zu einer Grad D Empfehlung generiert werden.
*
†
‡
§
§§
Mit Homogenität meinen wir einen systematischen Review ohne bedeutender Varianz (Heterogenität) in bezug auf die
Richtung und die Varianz der Ergebnisse zwischen einzelnen Studien. Nicht alle systematischen Reviews mit statistisch
signifikanter Heterogenität müssen zwingend besorgniserregend sein und nicht alle besorgniserregenden
Heterogenitäten müssen statistisch signifikant sein. Wie oben erwähnt sollten Studien mit besorgniserregender
Heterogenität mit einem “–„ am Ende des gewünschten Grades versehen werden.
Clinical Decision Rule (CDR) = Klinische Entscheidungsfindung. (Dies sind Algorithmen oder Punktesysteme, die zu
einer prognostischen Schätzung oder einer diagnostischen Kategorie führen.)
Siehe Anmerkung #2 als Hilfe zum Verständnis, Eingruppieren und Gebrauch von Studien mit breiten
Konfidenzintervallen.
Trifft zu, wenn alle Patienten starben, bevor die Therapie verfügbar war und nach Einführung der Therapie einige
überleben; oder wenn einige Patienten starben, bevor die Therapie verfügbar war und keiner nach Einführung der
Therapie stirbt.
Mit qualitativ schlechten Kohortenstudien meinen wir jene, die die Vergleichsgruppe nicht klar definiert hat und/oder die
Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (exponiert
und nicht-exponiert) gemessen hat und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert hat und/oder
keine angemessene Nachbeobachtungsrate hatte.
Mit qualitativ schlechten Fall-Kontrolle Studien meinen wir jene, die keine definierte Vergleichsgruppe hat und/oder die
§§§
††
‡‡
†††
††††
**
***
****
Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (Fälle und
Kontrollen) gemessen hat und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert hat.
Eine Validierung bei einem Teil der Stichprobe wird erreicht, wenn alle Informationen ein einem Zweig gesammelt
werden und dieser dann künstlich in Derivations- und Validierungsgruppe geteilt wird.
Eine "Absolute SpPin" ist ein diagnostisches Ergebnis dessen Spezifität so hoch ist, so dass ein Positives Ergebnis die
Diagnose einschließt. Ein "Absolute SnNout" ist ein diagnostisches Ergebnis, dessen Sensitivität so hoch ist, so dass
das Negative Ergebnis die Diagnose ausschließt.
Gut, besser und schlecht bezieht sich auf den Vergleich zwischen Behandlungen im Sinne ihrer klinischen Risiken und
Nutzen.
Gute Referenzstandards sind unabhängig vom Test und werden blind oder objektiv an allen Patienten angewandt.
Schlechte Referenzstandards werden zufällig angewandt, sind aber dennoch vom Test unabhängig. Der Gebrauch nicht
unabhängiger Referenzstandards (wenn der Test in der Referenz eingeschlossen ist oder wenn das Testen die
Referenz beeinflusst) impliziert eine Level 4 Studie.
Behandlungen mit hohem Nutzen sind ebenso gut, aber günstiger oder besser bei gleichen oder geringeren Kosten.
Behandlungen mit geringem Nutzen sind ebenso gut, aber teurer oder schlechter bei gleichen oder höheren Kosten.
Validierungsstudien testen die Qualität eines spezifischen diagnostischen Tests, basierend auf der vorher entwickelten
Evidenz. Eine explorative Studie sammelt Informationen und untersucht alle Daten (z.B. mit einer Regressionsanalyse)
um herauszufinden, welche Faktoren signifikant sind.
Mit qualitativ schlechten prognostischen Kohortenstudien meinen wir solche, in denen die Stichprobenauswahl verzerrt
ist und diejenigen Patienten bevorzugt, die bereits das Ergebnis haben oder die Messung der Ergebnisse in weniger als
<80% der Studienpopulation durchgeführt wurde oder das Ergebnis durch nicht verblindete nicht objektive Art und
Weise gemessen wurde oder keine Korrigierung der Störfaktoren stattfand.
Eine gute Nachbeobachtungsrate in einer Differentialdiagnosestudie ist >80%, mit angemessener Zeit für das Auftreten
alternativer Diagnosen (z.B. 1-6 Monate akute, 1 - 5 Jahre chronische)
Grades of Recommendation
A
B
C
D
Entsprechende Level 1 Studien
Entsprechende Level 2 oder 3 Studien oder Extrapolation1 von Level 1 Studien
Level 4 Studien oder Extrapolation von Level 2 oder 3 Studien
Level 5 Evidence oder problematisch uneinheitlichen oder nicht aussagekräftigen Studien
jeden Levels
1"Extrapolation"
bedeutet die Nutzung von Ergebnissen in Situationen, die wahrscheinlich klinisch
relevante Abweichungen von der originalen Studiensituation aufweisen.
Literatur
1. Canadian Task Force on the Periodic Health Examination: The periodic health examination.
CMAJ 1979;121:1193-1254.
2. Sackett DL. Rules of evidence and clinical recommendations on use of antithrombotic agents.
Chest 1986 Feb; 89 (2 suppl.):2S-3S.
3. Cook DJ, Guyatt GH, Laupacis A, Sackett DL, Goldberg RJ. Clinical recommendations using
levels of evidence for antithrombotic agents. Chest 1995 Oct; 108(4 Suppl):227S-230S.
4. Yusuf S, Cairns JA, Camm AJ, Fallen EL, Gersh BJ. Evidence-Based Cardiology. London:
BMJ Publishing Group, 1998.
3.2 Überprüfung der methodischen Qualität kontrollierter klinischer Studien
Nachdem durch die Literaturrecherche anhand der Zusammenfassungen klar ist, welche
Studien gemäß der best verfügbaren Evidenz ausgewählt werden können, muss eine weitere
methodische Qualitätssicherung durchgeführt werden.
Die Studien werden ausgewählt und in die Übersichtsarbeit eingeschlossen aufgrund der
Erfüllung bestimmter methodischer Kriterien.
Der Begriff „Qualität“ ist multidimensional und bezieht sich hier auf die externe und interne
Validität von Studien. Die externe Validität berücksichtigt dabei in wieweit die Ergebnisse der
Studien eine korrekte Grundlage für die Verallgemeinerung bzw. das Transferieren in andere
Sachverhalte bietet. Die interne Validität berücksichtigt in wieweit ein systematischer Fehler
(bias) in klinischen Studien minimiert wurde.
Skalen dienen dazu (wie Jadad-Scale), die Informationen zu mehreren Kriterien zu
kombinieren und in einem numerischen Ausdruck zusammenfassen. Ein anderes Verfahren
besteht in der einzelnen Untersuchung bestimmter Schlüsseldimensionen, ohne einen Wert
daraus zu berechnen.
Die verschiedenen Skalen können bei Beurteilung eines gegebenen Sets von Studien zu
divergierenden Ergebnissen führen (Jüni et al 1999). Die Methode der einzelnen Bewertung
von Teilaspekten jedoch berücksichtigt die Wichtigkeit von deren individueller Qualität in den
verschieden medizinischen Kontexten und die Wirkungen potentieller Störfaktoren, die damit
verbunden sein können. Jüni et al (2001) schließen aus ihrem jüngsten Review zu dieser
Thematik, dass die Skalen grundsätzlich nicht genutzt werden sollten, um Studien in einer
Übersichtsarbeit qualitativ einzuschätzen. Besser sollten die relevanten methodologischen
Aspekte für jeden Kontext a priori identifiziert und individuell gewertet werden.
Dies sollte:
1. die Generierung der Zufallsverteilung (z.B. Computer generierte Randomisierung oder
Randomisierungslisten)
2. die verdeckte Randomisierung (für Untersucher und Studienteilnehmer nicht voraussehbare Zuordnung)
3. die Verblindung (Geheimhaltung der Intervention (Kontrolle oder Experiment) vor den
4.
Studienteilnehmern und Studienbetreuern / unabhängige Ergebnisparametermessung)
den Umgang mit vorzeitigem Beenden der Studie (attrition) im Beobachtungszeitraum (Intention-totreat-analysis
einschließen.
Nach diesen Kriterien werden die Studien für die in der Datenbank publizierten
Übersichtsartikel bewertet und ausgewählt.
4. Literatur
Jüni P, Witschi A, Bloch R, Egger M (1999) The hazards of scoring the quality of clinical trials
for meta-analysis. JAMA 282;11:1054-60.
Jüni P, Altman DG, Egger M (2001) Assessing the quality of controlled trials. BMJ 323;7:426.