Ablauf einer wissenschaftlichen Untersuchung

Werbung
Dr. Götz Fabry
Vorlesung Medizinische Psychologie
03.07.2009 Methodische Grundlagen II: Wissenschaftliche Studien
Der Anspruch, dass der Arzt sein Handeln an wissenschaftlichen Erkenntnissen orientieren soll, erscheint
so selbstverständlich, dass man meinen könnte, es sei überflüssig, extra darauf hinzuweisen. Allerdings
zeigt sich immer wieder, dass zwischen wissenschaftlicher Erkenntnis auf der einen und ärztlicher Praxis
auf der anderen Seite erhebliche Differenzen bestehen. Die Gründe dafür sind vielfältig und komplexer
als es auf den ersten Blick vielleicht erscheinen mag. Der wichtigste Grund ist mit Sicherheit der, dass
der Charakter der Medizin als eine praktische Wissenschaft (im Unterschied zu einer theoretischen
Wissenschaft wie z.B. der Physik oder der Biologie) häufig verkannt wird. Während es nämlich das oberste Ziel theoretischer Wissenschaften ist, Erkenntnis um ihrer selbst willen zu betreiben, geht es bei
praktischen Wissenschaften in erster Linie darum, individuelle Probleme zu lösen. Selbstverständlich haben auch die Erkenntnisse theoretischer Wissenschaften praktische Bedeutung, diese ist aber nicht das
oberste Ziel sondern ein willkommener Nebeneffekt. Für die Medizin dagegen lässt sich Ähnliches nicht
behaupten, ganz im Gegenteil. Hier geht es nämlich von Anfang an darum, Erkenntnis nicht um ihrer
selbst willen, sondern nur deshalb zu suchen, weil man einen Patienten heilen oder zumindest leidmindernd behandeln will. Ein wesentlicher Teil des nicht umsonst immer wieder als „Kunst“ bezeichneten
ärztlichen Handelns besteht also darin, von wissenschaftlichen Erkenntnissen so Gebrauch zu machen,
dass sie dazu beitragen, das Problem des individuellen Patienten besser verstehen und lösen zu können.
Bei diesem Schritt handelt es sich nicht lediglich um eine simple „Anwendung“ wissenschaftlicher Erkenntnisse, sondern um eine eigenständige Kompetenz, die nicht nur systematisch geschult und erworben, sondern auch ihrerseits wissenschaftlich untersucht werden muss. Wichtige Impulse hierzu sind in
den letzten Jahren unter dem Stichwort „evidenzbasierte Medizin“ (EBM) entstanden, entsprechende
Publikationen werden zur Vertiefung der hier lediglich im knappen Überblick dargestellten Aspekte daher
ausdrücklich empfohlen (siehe Literaturhinweise am Ende).
Ein wichtiger Baustein, um wissenschaftliche Erkenntnis für die ärztliche Praxis nutzen zu können, ist das
Wissen darüber, wie eine wissenschaftliche Untersuchung überhaupt aufgebaut ist, welcher Voraussetzungen es zu ihrer Durchführung bedarf und wie vor diesem Hintergrund die Gültigkeit ihrer Ergebnisse
zu bewerten sind. Hierzu soll diese Vorlesung einen ersten Überblick liefern, der aber nicht mehr sein
kann, als eine Anregung zu weiterer Auseinandersetzung. Folie 1 gibt einen Überblick über die Schritte,
die bei der Durchführung einer wissenschaftlichen Untersuchung notwendig sind und die im folgenden
ausführlicher erläutert werden.
Folie 1
Ablauf einer wissenschaftlichen
Untersuchung
1. Ausgangspunkt: Alltagsbeobachtung, Vermutung
2. Wissenschaflichte Fragestellung
3. Hypothesenbildung
4. Operationalisierung
5. Untersuchungskriterien
6. Untersuchungsplanung
7. Datengewinnung
8. Datenauswertung und –Interpretation
9. Ergebnisbewertung
Ausgangspunkt wissenschaftlicher Studien in der Medizin und Psychologie sind häufig Alltagsbeobachtungen, wie sie beispielhaft in Folie 2 dargestellt sind. Typisch für solche Bebachtungen ist, dass sie
noch unscharf sind, was sich in der Formulierung z.B. an wenig spezifischen Wörtern wie „irgendwie“
oder „stressig“ ablesen lässt.
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
1 / 12
Folie 2
1. Alltagsbeobachtungen
• „Depressive Patienten wollen immer alles ganz genau
machen.“
• „Viele meiner Patienten mit Rückenschmerzen haben
auch stressige Berufe.“
• „Leute die rauchen sind irgendwie auch
kommunikativer.“
Ein wichtiger Schritt auf dem Weg zu wissenschaftlichen Erkenntnissen besteht also darin, aus diesen
Alltagsbeobachtungen eine wissenschaftliche Fragestellung abzuleiten (Folie 3). Diese zeichnet
sich nicht nur durch eine größere Genauigkeit in der Formulierung aus, sondern auch durch Bezugnahme
auf Theorien und Konstrukte (Folie 4), die es erlauben, die zu untersuchenden Sachverhalte noch
konkreter zu fassen.
Folie 3
2. Wissenschaftliche Fragestellung
• „Unterscheiden sich Patienten mit einer depressiven
Störung im Hinblick auf ihren Perfektionismus von
Patienten mit anderen psychischen Störungen?“
• „Gibt es einen Zusammenhang zwischen vermehrtem
Stress und Rückenschmerzen?“
• „Unterscheiden sich Raucher im Hinblick auf ihre
soziale Kompetenz von Nichtrauchern?“
Folie 4
Theorien & Konstrukte
• Theorie: beschreibt die Phänomene eines
Sachverhalts, ermöglicht Erklärungen,
Gesetzmäßigkeiten und Prognosen
Bsp.: Salutogenese, Rubikon-Modell, transaktionales
Stressmodell, etc.
• Konstrukt: theoretisches Konzept, Baustein der
Theorie, nicht direkt beobachtbar, wird aus
Indikatoren erschlossen
Bsp.: Kohärenzgefühl, Motivation, Volition, Coping,
Abwehr, Intelligenz, etc.
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
2 / 12
Aus dem im ersten Beispiel von Folie 2 angeführten „ganz genau machen“ wurde in der wissenschaftlichen Fragestellung „Perfektionismus“, ein psychologisches Konstrukt, zu dem bereits eine ganze Reihe
von wissenschaftlichen Erkenntnissen vorliegen, auf die bei einer neuen Studie Bezug genommen werden kann. Auch die Patienten wurden genauer definiert, in dem von „depressiver Störung“ die Rede ist,
womit auf die im klinischen Kontext übliche Diagnosen Bezug genommen wird, die mit Hilfe eines Klassifikationssystems (der International Classification of Diseases, ICD) der Weltgesundheitsorganisation
eindeutig beschrieben werden kann. Man muss sich allerdings bewusst machen, dass die größere Eindeutigkeit und Genauigkeit der Formulierung mit einer Reduktion der in der Alltagsbeobachtung noch
möglichen Bedeutungen verbunden ist. „Perfektionismus“ als psychologisches Konstrukt unterscheidet
sich von dem, was wir im Alltag unter Perfektionismus verstehen. Diese Einschränkung ist insofern wichtig, als damit die Übertragbarkeit der Ergebnisse einer Studie in den Alltag begrenzt sein kann, wenn
sich nämlich die verwendeten Konstrukte zu sehr von dem unterscheiden, was wir in unserem vorwissenschaftlichen Alltags-Verständnis damit verbinden. Gerade bei (neuro-)psychologischen Studien lässt
sich häufig beobachten, dass die dort unter eng definierten experimentellen Bedingungen gewonnenen
Erkenntnisse unkritisch generalisiert werden, ohne die Unterschiede zwischen Alltagsbegriffen und wissenschaftlichen Konstrukten zu berücksichtigen.
Aus der Fragestellung lassen sich in einem nächsten Schritt Hypothesen ableiten, die dann mit Hilfe
der wissenschaftlichen Studie überprüft werden können (Folie 5). Damit ist zugleich ihr wichtigstes Charakteristikum benannt, nämlich die prinzipielle Überprüfbarkeit mit Hilfe geeigneter Methoden. Es ist
durchaus möglich, dass solche Methoden noch nicht existieren und erst entwickelt werden müssen, daher gibt es wissenschaftliche Hypothesen, die noch nicht überprüft sind, was aber prinzipiell möglich
wäre.
Folie 5
3. Hypothesenbildung
• Hypothesen...
– behaupten eine Beziehung zwischen mindestens zwei
Variablen
– müssen empirisch und intersubjektiv überprüfbar sein
Bsp.:
• „Patienten mit einer depressiven Störung haben einen stärker
ausgeprägten Perfektionismus.“
• „Vermehrter Stress führt bei Patienten mit Rückenschmerzen zu
stärkerem Schmerzempfinden.“
• „Personen mit vermehrtem Stress haben ein höheres Risiko für
Rückenschmerzen.“
Folie 6
Hypothesen
• Deterministisch: trifft für alle Fälle zu
Bsp.: Ein Stein fällt zu Boden, wenn man ihn loslässt.
• Probabilistisch: Aussage zu Wahrscheinlichkeit
Bsp.: Bei Vorliegen einer Hypertonie ist das Risiko
eines Herzinfarkts erhöht.
In Medizin und Psychologie sind Hypothesen (fast)
immer probabilistisch. Sichere Aussagen über
einzelne Individuen sind daher nicht möglich!
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
3 / 12
Wichtig ist in diesem Zusammenhang die Unterscheidung zwischen deterministischen Hypothesen und
probabilistischen Hypothesen (Folie 6). Während eine deterministische Hypothese (unter bestimmten Bedingungen) auf alle Fälle zutrifft, macht die probabilistische Hypothese eine Aussage zur
Wahrscheinlichkeit (etwa des Eintretens eines bestimmten Ereignisses). Hypothesen in der Psychologie
und Medizin sind fast immer probabilistisch. Wir wissen z.B. dass bestimmte Risikofaktoren die Wahrscheinlichkeit erhöhen, eine bestimmte Krankheit zu entwickeln oder umgekehrt, dass bestimmte Ressourcen zu einer erhöhten Widerstandsfähigkeit gegen potentielle Stressoren führen. Was wir allerdings
nicht wissen ist, wie sich z.B. eine Krankheit bei einem individuellen Patienten entwickeln wird, wie er
auf eine bestimmte Behandlung ansprechen wird, wie lange er noch leben wird, usw.
Sind Hypothesen für die wissenschaftliche Studie formuliert, muss im nächsten Schritt festgelegt werden, wie die in der Hypothese enthaltenen Variablen gemessen werden sollen. Diese „Messbarmachung“ bezeichnet man als Operationalisierung (Folie 7). Für die in Folie 2 genannten Beispiele
könnte das z.B. heißen, dass man einen Fragebogen auswählt, mit dem der Schweregrad einer Depression gemessen werden kann. Das hier als Beispiel ausgewählte Beck-Depressions-Inventar ist ein Fragebogen, der vom Patienten selbst ausgefüllt wird (Selbstbeurteilung). Es gibt aber auch Fragebögen,
die von einem Beobachter, etwa einem Arzt ausgefüllt werden (Fremdbeurteilung, für die Depression
z.B. die Hamilton-Skala). Ob ein Verfahren der Selbst- oder Fremdbeurteilung zum Einsatz kommen soll,
hängt von der Fragestellung ab, die mit der wissenschaftlichen Studie verfolgt wird und muss von den
jeweiligen Forschern entschieden werden.
Folie 7
4. Operationalisierung
• Angabe des Messverfahrens:
– z.B. Depressive Störung: ICD-10, zusätzlich
Fragebogen (z.B. Beck-Depressions-Inventar)
– Perfektionismus: mehrdimensionale
Perfektionismusskala (Frost)
– Rückenschmerzen: Visuelle Analogskala
– Rauchen: Zahl der Zigaretten/Tag, Dauer,
Inhalationstiefe, etc.
Von entscheidender Bedeutung im Hinblick auf die eingesetzten Messverfahren ist die Qualität der damit
erhobenen Daten. Folie 8 zeigt die wichtigsten Gütekriterien, die in diesem Zusammenhang erfüllt sein
müssen. Am einfachsten zu verstehen ist die Objektivität. Damit ist gemeint, dass es keinen Unterschied machen darf, von wem die Daten erhoben und ausgewertet werden, das Ergebnis muss immer
dasselbe sein. Die Objektivität ist z.B. dann ein Problem, wenn die Datenerhebung wenig strukturiert
erfolgt, z.B. bei einem nicht-standardisierten Interview oder bei direkter Beobachtung. Bei strukturierten
Verfahren, z.B. einem Fragebogen mit vorgegebenen und lediglich auszuwählenden Antworten, der elektronisch ausgewertet wird, ist die Objektivität dagegen meist unproblematisch. Das zweite wichtige Kriterium ist die Reliabilität, also die Zuverlässigkeit der Daten. Am einfachsten lässt sich das durch
eine Wiederholung der Messung überprüfen. Vorausgesetzt das zu messende Merkmal ist zeitlich stabil,
dann sollte eine wiederholte Messung jedes Mal zu identischen Ergebnissen führen. Da allerdings die
zeitliche Stabilität bei vielen Merkmalen nicht gegeben ist und wiederholte Messungen zudem meist nur
wenig praktikabel sind, wird die Reliabilität in der Praxis meist anders bestimmt, indem man z.B. die einzelnen Fragen („Items“) eines Fragebogens zufällig auf zwei Hälften verteilt und überprüft, inwieweit die
Ergebnisse dieser beiden Teiltests miteinander übereinstimmen (sog. Split-Half Reliabilität). Das wichtigste Gütekriterium ist die Validität, also die Gültigkeit. Hier geht es darum, ob ein Messverfahren
tatsächlich misst, was es zu messen vorgibt. So würde man etwa erwarten, dass Personen, die auf der
Beck-Depressions-Skala hohe Werte erreichen, tatsächlich auch schwerer depressiv sind, als Personen
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
4 / 12
mit niedrigeren Werten. Um das zu überprüfen könnte z.B. das klinische Urteil erfahrener Ärzte herangezogen werden. Ein anderes Beispiel wäre z.B. die Staatsexamensprüfung in Medizin, von der man vielleicht verlangen müsste, dass sie eine Aussage über die klinische Kompetenz eines Absolventen macht.
Dieses Beispiel zeigt bereits, dass die Validität eine echte Herausforderung für viele Messverfahren ist.
Dies gilt umso mehr, als die drei Gütekriterien hierarchisch aufeinander bezogen sind. Daten können
demnach nur dann valide sein, wenn sie auch objektiv und reliabel sind. Umgekehrt sind dagegen Objektivität und Reliabilität noch keine hinreichenden Bedingungen für Validität. Die in Folie 8 dargestellten Schießscheiben von drei unterschiedlichen Schützen verdeutlicht diesen Zusammenhang.
Folie 8
5. Untersuchungskriterien
• Objektivität: Unabhängigkeit von der Person des
Untersuchers
• Reliabilität: Zuverlässigkeit, v.a. Reproduzierbarkeit
• Validität: Gültigkeit, inhaltliche Bedeutung
weder reliabel
noch valide
reliabel
aber nicht valide
reliabel
und valide
Der nächste wichtige Schritt bei der Durchführung einer wissenschaftlichen Studie gilt der Auswahl des
Untersuchungsdesigns. Auch dieser Schritt kann die Ergebnisse einer Studie beeinflussen, wie bei
den nachfolgend dargestellten Beispielen deutlich werden wird. Wichtige Fragen, die in medizinischen
wie psychologischen Studien untersucht werden, befassen sich mit den Ursachen von Krankheiten bzw.
von anderen Zuständen, z.B. bestimmten Persönlichkeitseigenschaften. Solche Fragen können mit Hilfe
von Fall-Kontroll-Studien untersucht werden (Folie 9).
Folie 9
Fall-Kontroll-Studie
z.B. Fragen der Ätiologie
Exponiert
z.B. Raucher
Fälle
Nicht-exponiert
(z.B. Männer
Mit HI)
Befragung zu
Exposition und
Risikofaktoren
Exponiert
z.B. Raucher
Kontrollen
Nicht-exponiert
Befragungsrichtung
Zeit
Ausgangspunkt ist dabei eine Gruppe von „Fällen“, z.B. männliche Patienten, die einen Herzinfarkt erlitten haben. Um herauszufinden, wie diese Herzinfarkte verursacht worden sind, kann man die Vorgeschichte dieser Patienten nach bestimmten Auffälligkeiten (Risikofaktoren) untersuchen, z.B. ob diese
Patienten geraucht haben. Allerdings reicht es nicht aus, nur die Gruppe der Erkrankten zu untersuchen,
notwendig ist eine Kontrollgruppe, die nicht an Herzinfarkt erkrankt ist und deren Vorgeschichte ebenfalls untersucht wird. Fänden sich in der Kontrollgruppe genauso viele Raucher wie in der Gruppe der
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
5 / 12
Erkrankten, dann wäre es fraglich, ob Rauchen tatsächlich ein Risikofaktor für die Entstehung eines
Herzinfarktes ist. Um eine solche Aussage treffen zu können, muss die Kontrollgruppe sehr sorgfältig
ausgewählt werden. Zum einen muss sie der Gruppe der Fälle möglichst ähnlich sein (z.B. im Hinblick
auf Variablen wie Geschlecht, Alter, soziale Schicht), weil sonst das Ergebnis möglicherweise verfälscht
sein kann (z.B. sind Herzinfarkte bei bestimmten Altersgruppen häufiger und zwar unabhängig davon, ob
jemand geraucht hat oder nicht). Andererseits muss die Kontrollgruppe aber auch repräsentativ sein für
die Grundgesamtheit aus der sie stammt. Wären z.B. in der Kontrollgruppe weniger Raucher als in der
männlichen Gesamtbevölkerung, dann würde das Risiko, einen Herzinfarkt zu entwickeln, unterschätzt.
Eine Fehlerquelle bei Fall-Kontroll-Studien ist also der sogenannte „Selection-Bias“ durch Verzerrungen
bei der Auswahl der Kontrollgruppe (Folie 10). Ein weiteres Problem bei dieser Art von Studien sind
Verzerrungen durch selektive Erinnerungen. Ein bereits Erkrankter hat nämlich möglicherweise intensiver über mögliche Ursachen nachgedacht und seine Vergangenheit danach abgesucht als ein Gesunder. Eine dritte Fehlerquelle sind schließlich Einflüsse von Störgrößen. Angesprochen wurde bereits,
dass es wichtig ist, z.B. die Altersverteilung in Fall- und Kontrollgruppe möglichst gleich zu halten. Allerdings kann man mit diesem sogenannten „Matching“ auch über das Ziel hinausschießen. Dies wäre
dann der Fall, wenn sich die Gruppen auch in Faktoren gleichen, die mit dem Risikofaktor zusammenhängen, so dass man dann keinen Unterschied mehr feststellen könnte.
Folie 10
Fall-Kontroll-Studie
Fehlerquellen
• Verzerrungen bei der Auswahl (Selection-Bias):
Kontrollgruppe weicht von Grundgesamtheit ab (z.B.
in der Expositionsverteilung)
• selektive Erinnerung (Recall-Bias): Erkrankte suchen
genauer nach Risikofaktoren in der Vergangenheit als
Nicht-Erkrankte
• Einfluss von Störgrößen z.B. Geschlecht, Alter Î
kann durch „Matching“ eingegrenzt werden (Problem:
Gruppen dürfen im Hinblick auf RF nicht zu gleich
sein!)
Fall-Kontroll-Studien sind in der Medizin sehr häufig, Folie 11 zeigt ein entsprechendes Beispiel. Untersucht wurde hier die Hormonersatz-Therapie bei Beschwerden in den Wechseljahren. In dieser Studie
ging es um Kombinationspräparate (Östrogen und Progesteron).
Folie 11
Bsp.: Hormonersatz-Therapie
• Fälle: 537 Frauen, 50-64 Jahre, ED Brustkrebs
• Kontrollen: 492 zufällig ausgewählte Frauen, derselben Region,
altersgematcht
• Exposition:
– Hormonersatz-Therapie (Kombi: Östrogen+Progesteron)
• 57,6% der Fälle
• 61,0% der Kontrollen
– Jemals Kombi-Präparate: kein erhöhtes Risiko für BK
– Kombi-Präparate >8 Jahre: geringeres Risiko für BK
• Schlussfolgerung:
„On the whole, the use of estrogen with progestin HRT does not
appear to be associated with an increased risk of breast cancer in
middle-aged women. [...]“
JAMA 274(2): 137; 1995
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
6 / 12
Die Frage war, ob die Einnahme dieser Präparate mit einer erhöhten Rate an Brustkrebs-Erkrankungen
einhergeht. Die Ergebnisse der Studie zeigen, dass die Frauen, die jemals solche Kombinationspräparate
eingenommen hatten, kein erhöhtes Risiko für Brustkrebs hatten, Frauen, die solche Präparate länger als
acht Jahre eingenommen hatten, hatten sogar ein geringeres Risiko für Brustkrebs. Die Autoren der Studie folgerten somit aus ihren Ergebnissen, dass die Einnahme der Präparate nicht zu einer erhöhten Rate
an Brustkrebs-Erkrankungen führt.
Die beschriebenen Fehlerquellen von Fall-Kontroll-Studien lassen sich reduzieren, indem nicht retrospektiv, also vom Zeitpunkt der Erkrankung aus rückwirkend untersucht wird, sondern prospektiv, mittels
einer sogenannten Kohortenstudie (Folie 12). Um den Zusammenhang zwischen Rauchen und Herzinfarkt aufzuklären müsste man also eine Gruppe von Rauchern mit einer Gruppe von Nichtrauchern
über mehrere Jahre verfolgen, um dann z.B. nach 10 Jahren, die Häufigkeit von Herzinfarkten in beiden
Gruppen zu vergleichen. Damit ist zugleich eines der größten Probleme von Kohortenstudien angesprochen. Unter Umständen dauert es Jahre oder sogar Jahrzehnte bis die Ergebnisse vorliegen. Bei seltenen
Ereignissen müssen zudem sehr große Gruppen untersucht werden, denn selbst „häufige“ Erkrankungen
sind insgesamt gesehen doch immer noch selten (z.B. erleiden in Deutschland etwa 300 von 100.000
Personen pro Jahr einen Herzinfarkt). Prospektive Kohortenstudien sind also mit einem sehr großen
Aufwand verbunden.
Folie 12
Prospektive Kohorten-Studie
z.B. Studien zur Ätiologie
Erkrankte
Exponierte
Gesunde
Grundgesamtheit
Erkrankte
NichtExponierte
Gesunde
Befragungsrichtung
Zeit
Die auf Folie 13 dargestellte Kohortenstudie wurde ebenfalls zur Hormonersatztherapie durchgeführt.
Sie umfasste über 1 Mio. Frauen im Alter zwischen 50 und 64 Jahren, die in Großbritannien alle drei Jahre zu einer Mammographie-Untersuchung eingeladen werden.
Folie 13
Bsp.: Hormonersatz-Therapie
„Million Women Study“
•
•
•
•
•
•
•
•
•
1 084 110 Frauen (1/4 aller britischen Frauen 50-64J)
regelmäßiges Mammographie-Screening alle 3 Jahre (NHS)
Ausschluss: vorbestehende Krebs-Erkrankung
Endpunkte: Diagnose Brustkrebs, Tod durch Brustkrebs
9364 Fälle von Brustkrebs (2,6 J), 637 Todesfälle (4,1 J) durch
Brustkrebs
Etwa 50% irgendwann Hormonersatz-Therapie
relatives Risiko für Brustkrebs unter aktueller HET: 1,66 (Tod:
1,22)
10 Jahre HET Î 5 (E) bis 19 (E+P) zusätzliche BK-Fälle/1000
Behandelte
HET führte innerhalb von 10 Jahren zu 20.000 zusätzlichen
Brustkrebsfällen, davon entfallen 15.000 auf Kombi-Präparate.
Lancet (2003): 362 (9382):419-27
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
7 / 12
Bei dieser Gelegenheit wurde dann u.a. erfasst, ob sie eine Hormonersatztherapie erhalten hatten oder
nicht, was bei etwa 50% der Fall war (und die Bedeutung dieser Behandlung verdeutlicht). Aus der Studie ausgeschlossen wurden Frauen mit einer vorbestehenden Krebserkrankung, denn die Studie sollte ja
darüber Auskunft geben, ob das Risiko für die Entstehung von Brustkrebs durch die Therapie vergrößert
wird. Das relative Risiko für die Entstehung von Brustkrebs unter aktuell laufender Hormonersatztherapie
betrug 1,66, wobei sich ein Zusammenhang zwischen der Dauer der Therapie und dem Risiko für die
Entstehung von Brustkrebs zeigte. In absoluten Zahlen ausgedrückt bedeutet das, dass bei einer Therapiedauer von 10 Jahren auf 1000 Behandelte bei einer Therapie mit Östrogen-Monotherapie mit 5 zusätzlichen Krebserkrankungen zu rechnen ist und mit 19 zusätzlichen Krebserkrankungen bei Verwendung von Kombinationspräparaten aus Östrogen und Progesteron1. Die Ergebnisse dieser Studie stehen
also im Widerspruch zu den Ergebnissen der oben dargestellten Fall-Kontroll-Studie! Aufgrund der erwähnten Nachteile der Fall-Kontroll-Studie, vor allem ihrer Anfälligkeit für Verzerrungen, wird man die
Ergebnisse der Kohortenstudie höher bewerten. Zu Verzerrungen kann es allerdings auch bei der Kohortenstudie kommen und zwar deshalb, weil es durch die lange Dauer häufig zu Ausfällen von Teilnehmern
kommt. Problematisch werden diese Ausfälle dann, wenn sie nicht zufällig verteilt sind, sondern wenn
sie mit den zu untersuchenden Variablen zusammenhängen (Folie 14).
Folie 14
Kohorten-Studie
Nachteile
• zeitlicher und finanzieller Aufwand
• Verzerrungen durch Studienabbrecher: durch
selektiven Ausfall in einer Gruppe (z.B. aufgrund von
bestimmten Risikofaktoren)
Folie 15
randomisierte kontrollierte Studie
(randomized control trial RCT) z.B. Wirksamkeit von Behandlungen
Grundgesamtheit
prä-/post-Vergleich
Intervention
Studienteilnehmer
InterventionsEffekt?
R
Placebo
prä-/post-Vergleich
1
Folgende Faktoren, die Einfluss auf dieses Ergebnis haben könnten, wurden dabei berücksichtigt: Alter,
Zeit seit dem Einsetzen der Menopause, Zahl der Schwangerschaften und Alter bei der ersten Geburt, Familienanamnese bezüglich Brustkrebs, Body-Mass-Index, Wohnregion, Armutsindex. Zusätzlich wurden auch noch die
folgenden potentiell konfundierenden Variablen überprüft: Alkoholkonsum, frühere Einnahme der Pille, Alter bei
Einsetzen der Menarche, früherer Gesundheitsstatus. Der einzige Unterschied ergab sich für den Body-Mass-Index:
dünnere Frauen hatten ein höheres Risiko.
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
8 / 12
Eine spezielle Form der Kohortenstudie, die vor allem dann zum Einsatz kommt, wenn es darum geht,
die Wirksamkeit von Behandlungen z.B. von Medikamenten zu überprüfen, ist die randomisierte kontrollierte Studie (Folie 15). Dieses Studiendesign ist in besonderem Maße geeignet, um systematische
Verzerrungen der Ergebnisse zu vermeiden und liefert daher sehr zuverlässige Daten. Das entscheidende
Element ist die Randomisierung, das heißt, die zufällige Aufteilung der Studienteilnehmer auf die Interventions- und die Kontrollgruppe. Durch die Randomisierung wird im Prinzip sichergestellt, dass sich
die beiden Gruppen in allen Variablen entsprechen außer eben hinsichtlich der Intervention, wodurch
deren Effekt umso eindeutiger festgestellt werden kann. Der Vorteil der Randomisierung gegenüber einer umfassenden Parallelisierung von beiden Gruppen besteht darin, dass sich die beiden Gruppen auch
in solchen Variablen entsprechen, die man noch gar nicht kennt, die aber das Ergebnis beeinflussen
könnten. Allerdings führt die Randomisierung nur dann zu Gruppen mit wirklich gleichen Eigenschaften,
wenn diese zahlenmäßig groß genug sind. Bei kleineren Gruppen muss man daher eventuell eine Kombination aus Parallelisierung und Randomisierung vornehmen, indem man sogenannte Strata (Schichten) aus bekannten Einflussfaktoren bildet (z.B. Alter, Geschlecht) und dann in jeder dieser Gruppe eine
eigene Randomisierung vornimmt.
Auch das Beispiel für diese Art von Studie wurde zur Hormonersatz-Therapie durchgeführt (Folie 16).
Auch hier wurde eine große Gruppe von Frauen untersucht, die randomisiert entweder ein Kombinationspräparat aus Östrogen und Progesteron oder ein Plazebopräparat erhielten. Zur Kontrolle wurden
jährliche Mammographien und klinische Untersuchungen der Brust durchgeführt. Auch in dieser Studie
ergab sich ein erhöhtes Risiko für Brustkrebs unter Hormonersatztherapie, ausgedrückt als Hazard Ratio, einer Risikokennziffer, die ungefähr dem relativen Risiko entspricht. In absoluten Zahlen ausgedrückt entspricht diese Zahl etwa 8 zusätzlichen Brustkrebsfällen auf 10.000 behandelte Frauen. Aufgrund dieser Ergebnisse wurde die Studie nicht zuende geführt, weil es nicht mehr vertretbar erschien,
die Frauen weiterhin randomisiert mit Hormonersatzpräparaten zu behandeln, sondern allenfalls nach
einer strengen individuellen Risikoabwägung. Insgesamt haben die Ergebnisse der hier dargestellten
großen Studien zu einer Neubewertung der Hormonersatztherapie gegen Beschwerden in den Wechseljahren geführt, die Indikation wird angesichts der damit verbundenen Risiken jetzt wesentlich strenger
gestellt.
Folie 16
Bsp.: Hormonersatz-Therapie
„Women Health Initiative Study“
• 16 608 postmenopausale Frauen (50-79J), 40 Kliniken
• Zeitraum: 1993-1998
• randomisiert: Kombi-Präparat (E+P) oder Placebo
• jährliche Mammographien + klinische Untersuchung
• Hazard Ratio [≈ rel. Risiko] für Brustkrebs bei Kombi-Präparat:
1,24 (entspricht 8 zus. Fällen pro 10.000 behandelter Frauen)
• Studie wird aufgrund dieser Ergebnisse 2002 abgebrochen
(nach durchschnittlich 5,2 Jahren Beobachtungszeit)
JAMA (2002): 288(3):321-333
Folie 17 fasst die wichtigsten Charakteristika randomisierter kontrollierter Studien zusammen. In Studien zur Wirksamkeit von Behandlungen oder anderer Interventionen wird außer der Randomisierung
eigentlich immer auch eine Verblindung durchgeführt. Diese Maßnahmen dient dazu, Verzerrungen der
Ergebnisse zu vermeiden, die durch den Plazebo-Effekt bzw. den Versuchspersonen- (Hawthorne-)
und Versuchsleiter- (Rosenthal-) Effekt entstehen können. Alle diese Effekte haben damit zu tun, dass
allein das Wissen, an einem Experiment teilzunehmen, dessen Ergebnis verfälschen kann. Mit dem Plazebo-Effekt wird zumeist das Phänomen bezeichnet, dass bereits die Überzeugung, ein Medikament gegen bestimmte Beschwerden einzunehmen, diese lindern kann, auch wenn das Medikament gar keinen
entsprechenden Wirkstoff enthält. Das gleiche gilt aber auch für andere medizinische Maßnahmen z.B.
für Operationen, auch hier kann eine Scheinbehandlung, die keinerlei spezifischen Effekt hat, heilsam
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
9 / 12
sein. Versuchsleiter- und Versuchspersonen-Effekt beschreiben dieses Phänomen etwas allgemeiner:
Wird z.B. einem Lehrer gesagt, die Schüler aus Klasse A seien intelligenter als die aus Klasse B, so kann
es sein, dass er sich – beeinflusst durch dieses Wissen – so verhält, dass am Ende des Schuljahres tatsächlich Klasse A bessere Leistungen als Klasse B zeigt (z.B. weil der Lehrer unbewusst Klasse A mehr
gefordert hat) selbst wenn es gar keine wirklichen Unterschiede zwischen beiden Klassen gibt. Teilte
man umgekehrt den Schülern aus Klasse A mit, sie seien intelligenter als die aus Klasse B, so könnte das
ebenfalls zu entsprechenden Unterschieden führen (z.B. aufgrund erhöhter Anstrengungsbereitschaft),
obwohl tatsächlich keine Intelligenzunterschiede bestehen. Am besten ist es also, wenn eine Studie
„doppelblind“ durchgeführt wird, also weder der Arzt weiß, ob er gerade das Medikament („Verum“)
oder das Plazebo verabreicht. Allerdings kann nicht in allen Bereichen eine solche Doppelblindstudie
durchgeführt werden. In der Psychotherapieforschung ist das z.B. nicht möglich, denn hier weiß zumindest der Therapeut, ob er spezifisch psychotherapeutisch handelt oder nur ein allgemeines Gespräch mit
dem Patienten führt. Darüberhinaus kann man auch darüber streiten, ob hier eine Randomisierung sinnvoll ist, da die individuelle Passung von Therapeut und Patient ein wichtiger Wirkfaktor der Therapie sein
könnte, den man allerdings durch die Randomisierung ausschließen würde.
Im Hinblick auf die Relevanz von Studienergebnissen für den ärztlichen Alltag ist ein weiterer wichtiger
Faktor anzusprechen, nämlich die Frage, welche Patienten überhaupt in eine Studie eingeschlossen wurden. Bei einer Studie etwa zu depressiven Patienten muss nämlich vorab definiert werden, welche Patienten (z.B. mit welchem Schweregrad, welchen Begleiterkrankungen, etc.) überhaupt in der Studie untersucht werden sollen. Weichen die Charakteristika dieser Gruppe stark von den Charakteristika der
Patienten ab, die dem Arzt später in der Praxis begegnen, dann ist die Übertragbarkeit der Ergebnisse
möglicherweise eingeschränkt.
Diese Überlegungen machen deutlich, dass der Auswahl des geeigneten Studiendesigns viel Aufmerksamkeit geschenkt werden muss, um sowohl inhaltlich als auch methodisch zu aussagekräftigen Ergebnissen zu kommen.
Folie 17
randomisierte kontrollierte Studie
(randomized control trial RCT)
• kontrolliert Einflussfaktoren wie: natürlichen Verlauf, PlazeboEffekt, unbekannte Faktoren
• wichtig: Experimental- und Kontrollgruppe müssen strukturell
gleich sein (z.B. Alter, Geschlecht, soziale Schicht, Schweregrad
der Erkrankung)
• Verblindung: am besten doppelt (weder Versuchsperson noch
Experimentator wissen zu welcher Gruppe VP gehört)
– Kontrolle von Hawthorne- / Rosenthal-Effekt
• Problem: Einschlusskriterien – Relevanz für Grundgesamtheit?
Eine weitere wichtige Entscheidung bei der Durchführung betrifft die Methode der Datengewinnung.
Folie 18 zeigt einige typische Beispiele für Studien im Bereich der Medizinischen Psychologie.
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
10 / 12
Folie 18
7. Datengewinnung
• Interview: standardisiert / halb-standardisiert / offen
Bsp.: Adult-Attachment-Interview
• Fragebogen oder Test:
Bsp.: Fragebogen zur Krankheitsverarbeitung
• Systematische / teilnehmende Beobachtung
Bsp.: Fremde-Situation, Videoanalysen von ArztPatient-Gesprächen
• Erfassen psychophysiologischer Prozesse
Bsp.: Cortisol-Spiegel, Ausmaß der sympathischen
Aktivierung
Auch hier gilt: Die beste Methode gibt es nicht, vielmehr muss genau überlegt werden, welche Methode
am besten zur Fragestellung passt. Standardisierte Methoden, z.B. Fragebögen, bei denen die Antworten nur angekreuzt werden müssen, haben den Vorteil, dass mit Ihnen Objektivität leichter herzustellen ist, als z.B. mit einem offenen Interview. Allerdings gibt es nicht für alle Konstrukte passende
Fragebögen und für manche Fragen sind Interviews besser geeignet, z.B. wenn, wie beim Adult Attachment Interview, nicht nur die Inhalte sondern auch die Art und Weise der Antworten wichtig sind.
Liegen die Daten dann vor, müssen sie noch aufbereitet und ausgewertet werden. Dabei lassen sich
grundsätzlich zwei Herangehensweisen unterscheiden (Folie 19).
Folie 19
8. Datenauswertung und
-Interpretation
• Quantitativ mittels statistischer Verfahren:
– Deskriptiv (z.B. Mittelwerte, Streuung, Korrelation)
– Inferenzstatistik (z.B. statistische Tests auf
Zusammenhänge: sind die Unterschiede zwischen
zwei Bedingungen zufallsbedingt oder nicht?)
• Qualitativ: z.B. Inhaltsanalyse, um Hypothesen zu
generieren
Die quantitative Auswertung erfolgt mittels statistischer Verfahren. Dabei werden im einfachsten Fall
z.B. Mittelwerte ausgerechnet oder die Korrelation (d.h. die Beziehung) von zwei Variablen. Besonders
wichtig ist die statistische Überprüfung von Unterschieden zwischen der Interventions- und der Kontrollgruppe. Allein aus der Tatsache, dass sich die Gruppen unterscheiden (z.B. im Hinblick auf die durchschnittliche Schmerzreduktion nach Einnahme eines zu testenden Schmerzmittels bzw. eines Plazebos)
lässt sich nämlich noch nicht schlussfolgern, dass sich dieser Unterschied wirklich auf das Medikament
zurückführen lässt. Dazu muss nämlich mit Hilfe statistischer Tests erst noch überprüft werden, ob die
Unterschiede auch zufällig hätten zustande kommen können. Per Konvention hat man sich darauf geeinigt, dass Unterschiede erst dann als nicht-zufällig gelten (d.h. statistisch signifikant sind), wenn die
Wahrscheinlichkeit dafür bei unter 5% liegt. Was diese Zahl bedeutet, veranschaulicht folgende Überlegung: Würde man zwei Gruppen im Hinblick auf 20 verschiedene Variablen miteinander vergleichen,
fände man schon zufällig bei einer der Variablen einen Unterschied! Solche Fehler können wiederum mit
Hilfe entsprechender statistischer Verfahren vermieden werden, worüber die weiterführende Literatur
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
11 / 12
informiert. Die zweite Möglichkeit, Daten auszuwerten und zu interpretieren ist qualitativer Art. Qualitative Auswertungen sind insbesondere dazu geeignet, neue Hypothesen zu entwickeln, wenn z.B. das
bisherige Wissen über einen bestimmten Gegenstandsbereich noch so lückenhaft ist, dass eine Hypothesenbildung noch nicht möglich ist.
Der letzte Schritt einer wissenschaftlichen Untersuchung ist die Bewertung der Ergebnisse (Folie 20).
Folie 20
9. Ergebnisbewertung
• Sind die Ergebnisse generalisierbar? (z.B. auf die
Grundgesamtheit?)
• Sind die Ergebnisse relevant? (z.B. für die klinische
Praxis?)
• Stimmen die Ergebnisse mit der Theorie überein?
• Ergeben sich neue Hypothesen?
• Etc.
Wichtige Aspekte sind hier z.B. die Frage, ob die Ergebnisse generalisierbar sind, das heißt, ob sie sich
z.B. auf alle Patienten mit einem bestimmten Krankheitsbild übertragen lassen oder ob das nicht ohne
weiteres möglich ist. Die Generalisierbarkeit könnte z.B. dadurch eingeschränkt sein, dass die Studie nur
eine bestimmte Altersgruppe von Patienten umfasste oder solche mit zusätzlichen Risikofaktoren (z.B.
Übergewicht) ausgeschlossen waren, die aber in der Praxis häufig vorkommen. Weitere Folgen der Ergebnisbewertung könnte auch eine Modifikation der zugrundeliegenden Theorie sein, wenn sich z.B. die
Hypothesen als falsch erwiesen haben. Schließlich sind Studienergebnisse immer auch der Ausgangspunkt neuer wissenschaftlicher Untersuchungen.
Weiterführende Literatur:
-
Methodenkapitel der einschlägigen Lehrbücher (mindestens!): z.B. Faller/Lang, Buser/KaulHecker, etc.
Kunz R, Ollenschläger G, Raspe H, Jonitz GM, Donner-Banzhoff N (Hrsg) (2007): Lehrbuch Evidenbasierte Medizin in Klinik und Praxis. Köln (Deutscher Ärzte-Verlag).
Million Women Study Collaborators (2003): Breast cancer and hormone-replacement therapy in
the Million Women Study. The Lancet 362: 419-427.
Chlebowski RT, Hendrix SL, Langer RD (2003): Influence of Estrogen plus Progestin on breast
cancer and mammography in healthy postmenopausal women: The women’s health initiative
randomized trial. JAMA 289(24): 3243-3253.
© Dr. Götz Fabry, Abteilung für Medizinische Psychologie, Freiburg. www.medizinische-psychologie.de
12 / 12
Herunterladen