1. Datenbanken ..................................................................................................................... 1 2. Suchstrategie ............................................................................................................. 1 2.1 Suchbegriffe ............................................................................................................. 1 2.2 Methodische Filter .................................................................................................... 2 2.2.1 Randomised Controlled Trials and Systematic Reviews ..................................... 2 2.2.2 Diagnose............................................................................................................ 3 2.2.3 Therapie............................................................................................................. 3 2.2.4 Ätiologie, Ursache oder Nebenwirkungen .......................................................... 3 2.2.5 Prognose, Natürlicher Krankheitsverlauf ............................................................ 4 2.3 Ergänzende Informationen .............................................................................................. 4 3. Auswahl der publizierten Studien....................................................................................... 4 3.1 Darstellung der Stärke der Evidenz: ................................................................................ 4 3.2 Überprüfung der methodischen Qualität kontrollierter klinischer Studien ......................... 8 4. Literatur ............................................................................................................................. 9 1. Datenbanken Nach originalen Forschungsarbeiten und systematischen Übersichtsartikeln, Meta-Analysen, Leitlinien und HTA-Reports wird in folgenden Datenbanken systematisch gesucht: Cochrane Library Medline (Webspirs/Silverplatter) CINAHL EMBASE Sowie in den frei zugänglichen Datenbanken von DIMDI: Gerolit PSYNDEX Weiterhin wird themenspezifisch bei deutschen Fachgesellschaften angefragt sowie eine Internetsuche angestrebt. Auf unpublizierte Daten wird verzichtet. 2. Suchstrategie 2.1 Suchbegriffe Der erste Schritt zur Lösung eines Problems ist die Formulierung einer gezielten Frage (Flemming 1998). Fragestellungen, die an unser Projektteam gestellt werden, werden in eine wissenschaftliche Fragestellung transformiert, so dass die folgende Suche in den oben genannten Datenbanken effizient ist. Sie umfasst vier Komponenten: die Beschreibung und Eingruppierung des Patienten, das Problem, die Intervention (diagnostisches Instrument, therapeutische Maßnahme, Prognosefaktor oder dergleichen), evtl. dazu eine Alternative und das Ziel (outcome). Element Hilfe Das Problem des Patienten „Wie generalisiert man das Problem zu einer Gruppenbeschreibung“ „Welche Handlung erwäge ich vornehmlich?“ Die in Frage gestellte Intervention oder zur Debatte stehende (Test, Behandlung, Beispiel Bei älteren Menschen über 60 Jahren mit x... ...würde die Maßnahme y... Pflege) Der Vergleich oder die Alternative Das gewünschte Ziel „Was ist die andere Möglichkeit“ ... im Vergleich zum Beibehalten der Maßnahme z.... „Was möchte ich/der Patient ...zu einer Verbesserung seiner erreichen.“ Situation z.B. Temperatursenkung führen? Deutschsprachige Begriffe werden in englische übersetzt. 2.2 Methodische Filter Für die methodologische Limitierung der Literatursuche in Medline wird die im folgenden beschriebene Suchstrategie benutzt. Diese von Anne McKibbon erstellte und vom Zentrum für Evidenz-basierte Medizin in Oxford publizierte Suchtechnik (http://cebm.jr2.ox.ac.uk/docs/searching.html) ist entwickelt worden, um Studien zur Entscheidungsfindung (decision-making) zu identifizieren. Sie ist für jeden, der Fragestellung zugrundeliegenden besten Studientyp angelegt. Diese Suchstrategie wird mit einer sinnvollen themenspezifischen Stichwortsuche kombiniert. Sie grenzt die Suche also durch methodische Filter auf relevante Studiendesigns ein. 2.2.1 Randomisiert-kontrollierte Studien und Systematische Reviews 1. RANDOMIZED-CONTROLLED-TRIAL in PT (use LIMIT) 2. META-ANALYSIS in PT (use LIMIT) 3. CONTROLLED-CLINICAL-TRIAL in PT (use LIMIT) 4. CLINICAL-TRIAL in PT (use LIMIT) 5. random* in ti,ab,mesh 6. (meta?anal* or meta analy*) in ti,ab,mesh 7. (doubl* or singl*) and blind* in ti,ab,mesh 8. explode CLINICAL-TRIALS (use THESAURUS) 9. crossover in ti,ab,mesh 10. 1 or 2 or 3 or 4 or 5 or 6 or 7 or 8 or 9 Um die Sensitivität zu erhöhen kann folgendes versucht werden: 11. (clin* trial*) in ti,ab,mesh 12. control* near (trial* or stud*) in ti,ab,mesh 13. (singl* or doubl* or tripl* or trebl*) near (blind* or mask*) in ti,ab,mesh 14. placebo* in ti,ab,mesh 15. RESEARCH-DESIGN (use THESAURUS) 16. TG=COMPARATIVE STUDY (use LIMIT Checktags) 17. 10 or 11 or 12 or 13 or 14 or 15 or 16 Um die Suche auf systematische Übersichtsarbeiten zu limitieren: 18. REVIEW-ACADEMIC in PT (use LIMIT) 19. REVIEW-TUTORIAL in PT (use LIMIT) 20. systematic* near (review* or overview*) in ti,ab,mesh 21. (meta?analy* or meta analy*) in ti,ab,mesh,p 22. 1 or 2 or 3 or 4 or 5 2.2.2 Diagnose Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus; Andere Begriffe stehen für die Freitextsuche: Beste Einzelbegriffsuche: o sensitivity in ti,ab,mesh Suche mit maximaler Sensitivität: o sensitivity-and-specificity or o sensitivity in ti,ab,mesh or o diagnosis in mesh or o radionuclide imaging in mesh or o diagnostic use in mesh or o specificity in ti,ab,mesh Suche mit maximaler Spezifität: o exp sensitivity-and-specificity or o (predictive and value*) in ti,ab,mesh 2.2.3 Therapie Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus; Andere Begriffe stehen für die Freitextsuche: Beste Einzelbegriffsuche: o clinical-trial in pt Suche mit maximaler Sensitivität: o randomized-controlled-trial in pt o drug therapy in mesh or o therapeutic use in mesh or o random* in ti,ab,mesh Suche mit maximaler Spezifität: o (double and blind*) in ti,ab,mesh or o placebo* in ti,ab,mesh 2.2.4 Ätiologie, Ursache oder Nebenwirkungen Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus; Andere Begriffe stehen für die Freitextsuche: Beste Einzelbegriffsuche: o risk in ti,ab,mesh Suche mit maximaler Sensitivität: o exp cohort-studies o exp risk or o (odds and ratio*) in ti,ab,mesh or o (relative and risk) in ti,ab,mesh or o (case and control*) in ti,ab,mesh Suche mit maximaler Spezifität: o case-control-studies or o cohort-studies 2.2.5 Prognose, Natürlicher Krankheitsverlauf Begriffe in Anführungszeichen oder mit 'exp' stehen für die Suche im Thesaurus; Andere Begriffe stehen für die Freitextsuche: Beste Einzelbegriffsuche: o exp cohort-studies Suche mit maximaler Sensitivität: o incidence in mesh or o exp mortality or o follow-up studies or o mortality in mesh or o prognos* in ti,ab,mesh o predict* in ti,ab,mesh o course in ti,ab,mesh Suche mit maximaler Spezifität: o prognosis in mesh o survival-analysis 2.3 Ergänzende Informationen Bei den in Medline gefundenen Studien wird nach Kommentaren und Korrespondenz zu den Artikeln gesucht. Dies erscheint sinnvoll, da methodologische Diskussionen nach Veröffentlichung der originalen Studie erscheinen und weiterführende Informationen zu Bias und Verzerrung geben können. 3. Auswahl der publizierten Studien Die Auswahl der gefundenen Studien in den verschiedenen Datenbanken erfolgt nach folgendem Schema: 1. Es wird grundsätzlich nach der für die jeweilige Fragestellung bestmögliche externe Evidenz gesucht. Dies erfolgt durch die Eingruppierung der Studien in die Evidenzstärke: 2. Es wird grundsätzlich die methodische Qualität der Studien erhoben und nur hochwertige Studien in die Übersichtsarbeit einbezogen 3.1 Darstellung der Stärke der Evidenz: Die methodologische Beurteilung einer ausgewählten Publikation zu einer definierten Fragestellung ist abhängig von dem gewählten Studiendesign. Dies beeinflusst die Validität der Ergebnisse und die daraus resultierenden Schlussfolgerungen. Für jede Fragestellung gibt es ein ideales Studiendesign zur Beantwortung der Forschungsfrage. Ebenso sind an die unterschiedlichen Studiendesigns zur Überprüfung der Aussagen spezifische Fragen zu stellen1 . Die Beurteilung der Validität der Studien ist trotz eines einheitlich gewählten Eine Zusammenstellung der „Critical Appraisal“ Bögen findet sich unter: http://cebm.jr2.ox.ac.uk/docs/teachingresources, http://www.sign.ak.uk/guidelines/fulltext/50/annexc.html 1 Bewertungsmaßstabes, wie er durch diese Bögen gegeben ist, mindestens abhängig von der Kompetenz der beurteilenden Person und der Fragestellung. Deshalb sollten im Bewertungsprozess die Studien, wie bei Metaanalysen und Übersichtsarbeiten üblich, unabhängig voneinander von zwei Wissenschaftlern beurteilt werden. Der Prozess einer Einigung bei abweichenden Beurteilungsergebnissen muss vorher definiert werden. Die Darstellung der „levels of evidence“, also der Evidenz-Stärke soll Aufschluss darüber geben wie gut die Fragestellung durch die Forschung bzw. der in die Übersichtsarbeit eingeschlossenen Studien beantwortet werden können. Für diese Einordnung stehen mittlerweile einige Instrumente zur Verfügung. Die ÄZQ (Ärztliche Zentralstelle für Qualitätssicherung) hat für die Einteilung von Therapiestudien nach Evidenz-Stärken das von der SIGN (Scottish Intercollegiate Guidelines Network, http://www.sign.ac.uk) übernommen, das ursprünglich vom AHCPR (Agency for Health Care Policy and Research) stammt und mittlerweile von SIGN aufgrund eines Reviews überarbeitet wurde (siehe Tabelle 1). Tabelle1: Levels of Evidence Oxford Centre for Evidence- Agency for Health Care Policy based Medicine Levels of and Research / Evidence Ärztliche Zentralstelle für Qualitätssicherung Level Therapy/Prevention, Therapy Level Aetiology/Harm 1a SR (with homogeneity*) of Evidence obtained from meta1++ RCTs analysis of randomised controlled trial 1b Individual RCT (with narrow …from at least one randomised 1+ Confidence Interval‡) controlled trial 1c All or none§ 2a SR (with homogeneity* ) of cohort studies 2b Individual cohort study (including low quality RCT; e.g., <80% follow-up) 2c "Outcomes" Research; Ecological studies 3a SR (with homogeneity*) of case-control studies 3b 4 5 1…from at least one well-designed 2++ controlled study without randomisation …from at least one other type of 2+ well-designed quasi-experimental study 2- …from well-designed non3 experimental descriptive studies, such as comparative studies and case studies Individual Case-Control Study 4 Case-series (and poor quality …from expert committee reports cohort and case-control or opinions and/or clinical studies§§ ) experiences or respected authorities Expert opinion without explicit critical appraisal, or based on physiology, bench research or "first principles" Scottish Intercollegiate Guidelines Network Not specified High quality meta-analyses, systematic s, or RCTs with a very low risk of bias Well conducted meta analyses, systematic reviews of RCTs, or RCTs with a low risk of bias Meta analyses, systematic reviews of RCTs, or RCTs with a high risk of bias High quality systematic reviews of case-control or cohort studies High quality case-control or cohort studies with a very low risk of confounding, bias, or chance and a high probability that the relationship is causal Well conducted case control or cohort studies with a low risk of confounding, bias or chance and a moderate probability that the relationship is causal Case control or cohort studies with a high risk of confounding bias, or chance and a significant risk that the relationship is not causal Non-analytic studies, e.g. case report, case series Expert opinion Bei Ansicht der Tabelle wird deutlich, dass die Aussagen über den notwendigen Grad der Evidenz differieren. Ob die Einstufung von Aussagen z.B. in Leitlinien in Evidenz-Stärken Einfluss auf die Entscheidung von Klinikern hat, wurde bislang noch nicht untersucht. Weiterhin sind die Klassifizierungsinstrumente selbst kaum validiert worden. In den Benutzermanualen zur Einstufung von Evidenz-Stärken müsste ein Hinweis auf die klinische Relevanz der Studienergebnisse erfolgen. Dieser Punkt kann zwar bei der Formulierung von Ein- und Ausschlusskriterien für Studien durch die Definition von Fragestellung und Ziel der Leitlinien bzw. Studien berücksichtigt werden, sollte jedoch auch bei der Einstufung in Evidenz-Stärken stattfinden. Bislang verwendet die Cochrane Collaboration kein Instrument zur Einstufung der EvidenzStärke. Sie verweist auf die Reviewgruppen ein Verfahren zu definieren, wonach die Evidenz-Stärke für die jeweilige Fragestellung beurteilt wird. (Cochrane 2001 Reviewers Handbook). Bei einigen Leitlinien wurde diese Diskrepanz in der Bewertung der Evidenz dadurch berücksichtigt, dass sie explizit erwähnen, zwar einen standardisierten Prozess zur Ermittlung der Evidenz-Stärke eingesetzt zu haben, jedoch Studien, die eine Hypothese testeten, die direkt in Verbindung mit primären Ergebnisparametern in randomisierten Designs standen, mehr Gewicht zusprachen (Schiffer et al. 2001). Um jeweils nur die bestmögliche Evidenz Zugrundezulegen wird im Rahmen der Erstellung einer systematischen Datenbank für Gesundheitsfachberufe auf ein einheitliches Messinstrument zurückgegriffen. Da es durchaus sinnvoll ist auf die für jede Fragestellung bestmögliche Evidenz zugrückzugreifen und dies durch unterschiedliche Studiendesigns gewährleistet werden kann, wird im Rahmen dieses Projektes auf die „Levels of Evidence“ vom Centre of Evidence-based Medicine in Oxford zurückgegriffen (http://cebm.jr2.ox.ac.uk/docs/levels.html) (siehe Tabelle 2). Zum besseren Verständnis haben wir diese für das Projekt übersetzt: Tabelle 2: Oxford Centre for Evidence-based Medicine Levels of Evidence (Mai 2001) Differential Ökonomische - und Diagnose/Symptom Entscheidungsanalyse Prävalenzstudie SR (mit Homogenität*) SR (mit SR (mit Homogenität*) von SR (mit Homogenität*) der eingeschlossenen Homogenität*) der prospektiven von Level 1 Kohortenstudien; Level 1 Kohortenstudien ökonomischen Klinische diagnostischen Studien Entscheidungsfindung Studien; CDR† mit (CDR†) validiert in 1b Studien von verschiedenen verschiedenen Populationen klinischen Zentren Einzelne Validierungs-** Prospektive Analyse basiert auf Kohortenstudie mit > Kohortenstudie Kohortenstudie mit guter klinisch sinnvollen 80% mit gutem††† Nachbeobachtungsrate**** Kosten oder Nachbeobachtungsrate; Referenzstandard; Alternativen; CDR† validiert in einer oder getesteter systematische(r) einzelnen Population CDR† in einem Review(s) der klinischem Evidenz; und Zentrum Einbeziehung einer Sensitivitätsanalyse Alle oder keiner Absolute SpPins Alle oder keiner Fallserie Absolute Fallserie und SnNouts†† ökonomische KostenNutzen-Analyse †††† SR (mit Homogenität*) SR (mit SR (mit Homogenität*) von SR (mit Homogenität*) von entweder Homogenität*) von 2b und besseren Studien von Level >2 retrospektiven Level >2 ökonomischen Kohortenstudien oder diagnostischen Studien Studien unbehandelten Kontrollgruppen in RCTs Retrospektive Explorative** Retrospektive Analyse basiert auf Kohortenstudie oder Kohortenstudie Kohortenstudie, oder klinisch sinnvollen Nachbeobachtungsrate mit gutem††† geringe Kosten oder von unbehandelten Referenzstandard; Nachbeobachtungsrate Alternativen; Kontrollpatienten in CDR† nach begrenzte(r) Review Level Therapie/Prävention, Prognose Ätiologie/Nebenwirkungen 1a Systematischer Review (SR) (mit Homogenität* von Randomisiert-kontrollierten Studien (RCTs) 1b Einzelner RCT (mit engem Konfidenzintervall‡) 1c Alle oder keiner § 2a SR (mit Homogenität* ) der Kohortenstudien 2b Einzelne Kohorten Studie (eingeschlossen RCT mit schlechter Qualität; z.B. <80% Nachbeobachtungsrate) Diagnose einem RCT; Ableitung einer CDR† oder lediglich validiert bei einem Teil der Stichprobe§§§ Ergebnisforschung der Evidenz, oder einzelne Studie; und Einschluss multivariabler Sensitivitätsanalyse Ergebnisforschung; Ökologische Studien Audit oder Ökologische Studien Ergebnisforschung SR (mit Homogenität*) von SR (mit SR (mit Homogenität*) von SR (mit Homogenität*) Fall-Kontroll-Studien Homogenität*) von 3b und besseren Studien von 3b und besseren 3b und besseren Studien Studien Einzelne Fall-Kontroll NichtNicht-konsekutive Analyse basiert auf Studie konsekutive Kohortenstudie oder sehr limitierte Alternativen Studie; oder ohne limitierte Population oder Kosten, qualitativ Konsistenz der schlechte Berechnung angewendeten der Daten, aber Referenzstandards Einschluss der Sensitivitätsanalyse mit klinisch relevanten Variationen. Fall-Serie (und qualitative Fall-Serie (und Fall-Kontrolle Fall-Serie oder veralteter Analyse ohne Studie, schlechte Referenzstandard schlechte Kohorten- und Fall- qualitative schlechte Sensitivitätsanalyse Kontroll-Studien) prognostische oder nicht Kohortenstudien) unabhängige Referenzstandards Expertenmeinung ohne Expertenmeinung Expertenmeinung Expertenmeinung ohne Expertenmeinung kritische Analyse oder basiert ohne kritischer Analyse ohne kritische kritische Analyse oder ohne kritische Analyse auf physiologischer oder oder basiert auf Analyse oder basiert auf physiologischer oder basiert auf experimenteller Forschung physiologischer oder basiert auf oder experimenteller ökonomischer Theorie oder "Grundprinzipien" experimenteller physiologischer Forschung oder oder Forschung oder oder "Grundprinzipien" "Grundprinzipien" "Grundprinzipien" experimenteller Forschung oder "Grundprinzipien" 2c 3a 3b 4 5 Derivation oder lediglich validiert bei einem Teil der Stichprobe§§§ oder Basisdaten Entwickelt von Bob Phillips, Chris Ball, Dave Sackett, Doug Badenoch, Sharon Straus, Brian Haynes, Martin Dawes seit November 1998. Übersetzt und publiziert mit freundlicher Genehmigung von Bob Phillips durch Gabriele Schlömer, FR Gesundheit, Universität Hamburg Anmerkungen Benutzer können ein Minuszeichen “-“ verwenden, um den Grad anzuzeigen, der fehlt um zu einer schlüssigen Antwort zu kommen, weil: ENTWEDER ein einzelnes Ergebnis mit breitem Konfidenzintervall (z.B. eine ARR ist in einem RCT statistisch nicht signifikant aber der Konfidenzintervall schließt klinisch relevante Nebenwirkungen und Nutzen nicht aus) ODER ein systematischer Review mit besorgniserregender (und statistisch signifikanter) Heterogenität vorliegt. Solche Evidenz ist uneinheitlich und kann deshalb nur zu einer Grad D Empfehlung generiert werden. * † ‡ § §§ Mit Homogenität meinen wir einen systematischen Review ohne bedeutender Varianz (Heterogenität) in bezug auf die Richtung und die Varianz der Ergebnisse zwischen einzelnen Studien. Nicht alle systematischen Reviews mit statistisch signifikanter Heterogenität müssen zwingend besorgniserregend sein und nicht alle besorgniserregenden Heterogenitäten müssen statistisch signifikant sein. Wie oben erwähnt sollten Studien mit besorgniserregender Heterogenität mit einem “–„ am Ende des gewünschten Grades versehen werden. Clinical Decision Rule (CDR) = Klinische Entscheidungsfindung. (Dies sind Algorithmen oder Punktesysteme, die zu einer prognostischen Schätzung oder einer diagnostischen Kategorie führen.) Siehe Anmerkung #2 als Hilfe zum Verständnis, Eingruppieren und Gebrauch von Studien mit breiten Konfidenzintervallen. Trifft zu, wenn alle Patienten starben, bevor die Therapie verfügbar war und nach Einführung der Therapie einige überleben; oder wenn einige Patienten starben, bevor die Therapie verfügbar war und keiner nach Einführung der Therapie stirbt. Mit qualitativ schlechten Kohortenstudien meinen wir jene, die die Vergleichsgruppe nicht klar definiert hat und/oder die Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (exponiert und nicht-exponiert) gemessen hat und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert hat und/oder keine angemessene Nachbeobachtungsrate hatte. Mit qualitativ schlechten Fall-Kontrolle Studien meinen wir jene, die keine definierte Vergleichsgruppe hat und/oder die §§§ †† ‡‡ ††† †††† ** *** **** Exposition und Ergebnisse nicht in der gleichen objektiven Art und Weise (verblindet) in den beiden Gruppen (Fälle und Kontrollen) gemessen hat und/oder keine angemessenen Störfaktoren identifiziert und kontrolliert hat. Eine Validierung bei einem Teil der Stichprobe wird erreicht, wenn alle Informationen ein einem Zweig gesammelt werden und dieser dann künstlich in Derivations- und Validierungsgruppe geteilt wird. Eine "Absolute SpPin" ist ein diagnostisches Ergebnis dessen Spezifität so hoch ist, so dass ein Positives Ergebnis die Diagnose einschließt. Ein "Absolute SnNout" ist ein diagnostisches Ergebnis, dessen Sensitivität so hoch ist, so dass das Negative Ergebnis die Diagnose ausschließt. Gut, besser und schlecht bezieht sich auf den Vergleich zwischen Behandlungen im Sinne ihrer klinischen Risiken und Nutzen. Gute Referenzstandards sind unabhängig vom Test und werden blind oder objektiv an allen Patienten angewandt. Schlechte Referenzstandards werden zufällig angewandt, sind aber dennoch vom Test unabhängig. Der Gebrauch nicht unabhängiger Referenzstandards (wenn der Test in der Referenz eingeschlossen ist oder wenn das Testen die Referenz beeinflusst) impliziert eine Level 4 Studie. Behandlungen mit hohem Nutzen sind ebenso gut, aber günstiger oder besser bei gleichen oder geringeren Kosten. Behandlungen mit geringem Nutzen sind ebenso gut, aber teurer oder schlechter bei gleichen oder höheren Kosten. Validierungsstudien testen die Qualität eines spezifischen diagnostischen Tests, basierend auf der vorher entwickelten Evidenz. Eine explorative Studie sammelt Informationen und untersucht alle Daten (z.B. mit einer Regressionsanalyse) um herauszufinden, welche Faktoren signifikant sind. Mit qualitativ schlechten prognostischen Kohortenstudien meinen wir solche, in denen die Stichprobenauswahl verzerrt ist und diejenigen Patienten bevorzugt, die bereits das Ergebnis haben oder die Messung der Ergebnisse in weniger als <80% der Studienpopulation durchgeführt wurde oder das Ergebnis durch nicht verblindete nicht objektive Art und Weise gemessen wurde oder keine Korrigierung der Störfaktoren stattfand. Eine gute Nachbeobachtungsrate in einer Differentialdiagnosestudie ist >80%, mit angemessener Zeit für das Auftreten alternativer Diagnosen (z.B. 1-6 Monate akute, 1 - 5 Jahre chronische) Grades of Recommendation A B C D Entsprechende Level 1 Studien Entsprechende Level 2 oder 3 Studien oder Extrapolation1 von Level 1 Studien Level 4 Studien oder Extrapolation von Level 2 oder 3 Studien Level 5 Evidence oder problematisch uneinheitlichen oder nicht aussagekräftigen Studien jeden Levels 1"Extrapolation" bedeutet die Nutzung von Ergebnissen in Situationen, die wahrscheinlich klinisch relevante Abweichungen von der originalen Studiensituation aufweisen. Literatur 1. Canadian Task Force on the Periodic Health Examination: The periodic health examination. CMAJ 1979;121:1193-1254. 2. Sackett DL. Rules of evidence and clinical recommendations on use of antithrombotic agents. Chest 1986 Feb; 89 (2 suppl.):2S-3S. 3. Cook DJ, Guyatt GH, Laupacis A, Sackett DL, Goldberg RJ. Clinical recommendations using levels of evidence for antithrombotic agents. Chest 1995 Oct; 108(4 Suppl):227S-230S. 4. Yusuf S, Cairns JA, Camm AJ, Fallen EL, Gersh BJ. Evidence-Based Cardiology. London: BMJ Publishing Group, 1998. 3.2 Überprüfung der methodischen Qualität kontrollierter klinischer Studien Nachdem durch die Literaturrecherche anhand der Zusammenfassungen klar ist, welche Studien gemäß der best verfügbaren Evidenz ausgewählt werden können, muss eine weitere methodische Qualitätssicherung durchgeführt werden. Die Studien werden ausgewählt und in die Übersichtsarbeit eingeschlossen aufgrund der Erfüllung bestimmter methodischer Kriterien. Der Begriff „Qualität“ ist multidimensional und bezieht sich hier auf die externe und interne Validität von Studien. Die externe Validität berücksichtigt dabei in wieweit die Ergebnisse der Studien eine korrekte Grundlage für die Verallgemeinerung bzw. das Transferieren in andere Sachverhalte bietet. Die interne Validität berücksichtigt in wieweit ein systematischer Fehler (bias) in klinischen Studien minimiert wurde. Skalen dienen dazu (wie Jadad-Scale), die Informationen zu mehreren Kriterien zu kombinieren und in einem numerischen Ausdruck zusammenfassen. Ein anderes Verfahren besteht in der einzelnen Untersuchung bestimmter Schlüsseldimensionen, ohne einen Wert daraus zu berechnen. Die verschiedenen Skalen können bei Beurteilung eines gegebenen Sets von Studien zu divergierenden Ergebnissen führen (Jüni et al 1999). Die Methode der einzelnen Bewertung von Teilaspekten jedoch berücksichtigt die Wichtigkeit von deren individueller Qualität in den verschieden medizinischen Kontexten und die Wirkungen potentieller Störfaktoren, die damit verbunden sein können. Jüni et al (2001) schließen aus ihrem jüngsten Review zu dieser Thematik, dass die Skalen grundsätzlich nicht genutzt werden sollten, um Studien in einer Übersichtsarbeit qualitativ einzuschätzen. Besser sollten die relevanten methodologischen Aspekte für jeden Kontext a priori identifiziert und individuell gewertet werden. Dies sollte: 1. die Generierung der Zufallsverteilung (z.B. Computer generierte Randomisierung oder Randomisierungslisten) 2. die verdeckte Randomisierung (für Untersucher und Studienteilnehmer nicht voraussehbare Zuordnung) 3. die Verblindung (Geheimhaltung der Intervention (Kontrolle oder Experiment) vor den 4. Studienteilnehmern und Studienbetreuern / unabhängige Ergebnisparametermessung) den Umgang mit vorzeitigem Beenden der Studie (attrition) im Beobachtungszeitraum (Intention-totreat-analysis einschließen. Nach diesen Kriterien werden die Studien für die in der Datenbank publizierten Übersichtsartikel bewertet und ausgewählt. 4. Literatur Jüni P, Witschi A, Bloch R, Egger M (1999) The hazards of scoring the quality of clinical trials for meta-analysis. JAMA 282;11:1054-60. Jüni P, Altman DG, Egger M (2001) Assessing the quality of controlled trials. BMJ 323;7:426.