9) Randomisierung / Stratifizierung / Matching Lehrziele Randomisierung o Verschiedene Verfahren und mögliche Probleme Stratifizierung und Matching Warum randomisieren? Randomisierung: Zuweisung zu einer Bedingung nach Zufall Alternative Erklärungsansätze können besser ausgeschlossen werden. Die Plausibilität von Validitätsgefährdungen wird reduziert. Es ermöglicht unverzerrte Schätzungen mittlerer Treatmenteffekte << Kann man sagen, dass man bei randomiseierter Testung die Effekte eher auf das Treatment zurückführen kann? Ja, das wäre die direkte Folge aus den ersten beiden Stichpunkten.>> Wodurch wirkt Randomisierung? Alternative Ursachen sind mit der Gruppenzugehörigkeit nicht konfundiert << Dies ist der zentrale Grund, warum Randomisierung wirkt. Gruppenzugehörigkeit meint Treatment- oder Kontrollgruppe. Darauf sollte der Effekt eigentlich zurückgeführt werden, weil es bedeutet, dass z.B. die Verbesserung der Patientenbefindlichkeit durch das Treatment besser war. Wenn jetzt aber insbesondere die motivierten Patienten in einem nicht-experimentellen, d.h. nicht-randomisierten Design sich entschließen, an der Intervention teilzunehmen, könnte der gefundene Effekt auch auf die Patientenmotivation zurückzuführen sein. Gruppenzugehörigkeit und Motivation sind dann konfundiert, sie korrelieren.>> Validitätsbedrohungen werden nach Zufall auf die Gruppen verteilt Die Gruppen sind vor dem Treatment auf allen Variablen gleich verteilt (im Rahmen von Zufallsschwankungen) Der Selektionsprozess ist bekannt und kann modelliert werden Fehler und Treatmentbedingungen sind nicht korreliert Randomisierung und interne Validität: Beispiel: Experiment zum Stress: Ohne Randomisierung mögliche Bedrohung der internen Validität durch externe Stressoren (Scheidung, Umzug) Randomisierung erzielt gleichwahrscheinliche Verteilung solcher Einflüsse auf die Gruppen Ist bei Quasi-Experimenten viel unwahrscheinlicher zu garantieren Randomisierung und dritte Variablen: Die Gruppen sind im Rahmen des Zufalls in JEDER Hinsicht gleich! Aber: kleine Stichproben Prätest trotzdem hilfreich o Ausdünnung <<Was meint "Ausdünnung" durch einen Prä-Test? Ausdünnung (drop-out, experimentelle Mortalität) meint die Tatsache, dass immer wieder Personen aus der Studie ausscheiden. Wenn man bereits Prä-Tests erhoben hat, kann man beurteilen, ob der drop-out ist, d.h. ob sich die ausgeschiedenen Personen (oder allgemein Versuchseinheiten) signifikant von denen unterscheiden, die drin bleiben.>> o Erhöht statistische Trennschärfe bei der Auswertung 72 o Effektivität des Treatments gleich auf allen Prätestniveaus? *Daumen ab N=30 kann man von Vergleichbarkeit sprechen Zufallsstichprobe und zufällige Zuweisung Zufallsstichprobe erhöht Ähnlichkeit von Stichprobe und Population o Externe Validität Zufällige Zuweisung erhöht Ähnlichkeit der verglichenen Gruppen o Interne Validität Randomisieren, aber wie? Früher Zufallslisten Heute Computerprogramme Probleme: Nicht immer ist ein Zufallsgenerator zufällig (z.B. bei SPSS, hier immer den Startwert verändern oder mehrmals durchführen.) Zufallszahlen sind nur bei unendlich vielen Ziehungen ausgeglichen (aber bei welchem Experiment steht eine unendlich große Stichprobe zur Verfügung?). Verschiedene Formen der Randomisierung a) Einfache Randomisierung ( über Liste, z.B. Normalverteilung) b) Blockrandomisierung c) Blockrandomisierung mit ungleichen Gruppengrößen d) Adaptive Randomisierung e) Randomisierung nach Stratifizierung oder Matching b) Blockrandomisierung Die Randomisierung erfolgt so, dass innerhalb eines Blocks die Anzahl der Versuchspersonen ausgeglichen ist. z.B. Randomisierung in 10er-Blöcken o In jedem Block müssen 5 Personen der EG und 5 Personen der KG zugeordnet sein. (Es wird wieder mit Zufallszahlen randomisiert.) o Vorteil: Auch bei kleinen Stichproben ist das Verhältnis von KG/EG nahe 1. o Gleiche Zahlen in KG und EG sind wichtig für die statistische Trennschärfe ( Wie gut ist das Verfahren, um Unterschied zu finden) c) Blockrandomisierung mit ungleichen Gruppengrößen Das Verfahren der Blockrandomisierung kann auch angewendet werden, damit Gruppen mit unterschiedlichen Größen erzeugt werden. Beispiel: 75% zur EG und 25% zur KG. Kein Widerspruch zur Randomisierung, da jeder Proband die gleiche Chance hat, in die EG zu kommen. Dieser Ansatz ist manchmal notwendig, zum Beispiel: o Wenn das Treatment nur begrenzt verfügbar ist. o Kontrast zwischen zwei Treatments von Interesse, beide oft mit KG verglichen kleinere KG sinnvoll 73 d) Adaptive Randomisierung Im Laufe einer Studie werden die Zuordnungswahrscheinlichkeiten immer wieder verändert. Kann zum Einsatz kommen, falls die anfängliche Randomisierung zu ungleichen Gruppen führt. Somit wird versucht im Verlauf der Studie dem Unterschied zwischen den Gruppen entgegenzuwirken. Vorteil: Vergleichbare Gruppengrößen bei der Beendigung der Studie. Nachteil: Validitätsgefährdung Gruppen sind von der Eingangsreihenfolge her unterschiedlich zusammengesetzt Beispiel: Studienbeginn: Quote 1:1 Nach 6 Monaten EG = 40 / KG = 60 (bei angestrebten 100 Probanden pro Gruppe). Änderung der Zuordnungsquote. Bedarf: EG = 60 / KG = 40 -> Quote 3:2 Während der Studie werden neu aufgenommene Probanden nach 3:2 randomisiert höhere Wahrscheinlichkeit in die EG zu kommen Damit die Randomisierung funktioniert: Nach Möglichkeit externe Randomisierung (fragen Sie einen Kollegen, externe Abteilung, ein Methodenzentrum / Biometrie). Randomisierungslisten erst verwenden, wenn die Eingangsdiagnostik erhoben wurde (und eine Entscheidung der Teilnahme schon stattfand). Sonst besteht die Gefahr der bewussten und / oder unbewussten Manipulation. Bsp. für unbewusste Manipulation: therapeutisches Setting / Depressionsbehandlung neue Therapieform vor der Zuordnung werden Einschluss- und Ausschlusskriterien überprüft Depression muss vorliegen, darf aber nicht zu schwer sein (z.B. Suizidgefahr) Bsp. für unbewusste Manipulation: Gefahren: Falls der durchführende Therapeut (welcher von der neuen Therapieform überzeugt ist) von der Zuordnung schon vor der Eingangsdiagnostik erfahren hat: - schwere Fälle in der EG werden eher abgewiesen - leichte Fälle in der KG werden eher abgewiesen Lösungsansatz: Verblindung Verblindung 74 Bei der Eingangsdiagnostik ist die Zuordnung nicht bekannt (z.B. Zuordnung über verschlossene Umschläge) Idealfall: Dreifachverblindung Einfach: Proband hat keine Kenntnis über Gruppenzugehörigkeit Doppelt: Durchführender hat ebenfalls keine Kenntnis über Gruppenzugehörigkeit (z.B. bei Untersuchungen mit Medikamentengabe) Dreifach: Auswertender hat ebenfall keine Kenntnis über Gruppenzugehörigkeit Stratifizierung Stratifiziert Stichprobe = geschichtete Stichprobe Bei der stratifizierten Stichprobe greift der Wissenschaftler von vorneherein auf fundiertes Wissen um die Eigenheiten der Fälle in der Population zurück. Es gibt Überlegungen, ob die Population in bestimmte Dimensionen aufgeteilt werden kann, welche bei der Stichprobenziehung berücksichtigt werden sollen. Diese Dimensionen sind abhängig vom Thema der Forschungsarbeit und sollten theoretisch begründbar sein. Am sinnvollsten wenn Stratifizierungsdimension mit abhängiger Variable zusammenhängt Oft werden aber einfach die klassischen soziodemographischen Merkmale (Geschlecht, Alter, Beruf, Bildungsniveau etc.) verwendet. Vorteil: Es werden Gruppen gebildet, die in sich homogen sind. Hingegen gibt es zwischen den Gruppen möglicherweise maximale Differenzen Aus den so gebildeten Gruppen wählt man dann sukzessive die Fälle für die Stichprobe per Zufall aus, so dass die Stichprobe aus gleich großen Gruppen pro Schicht besteht So verhindert man z.B. dass per Zufall in EG nur Gymnasiasten und in KG nur Hauptschüler sind. Der Vorteil der stratifizierten Stichprobe gegenüber der reinen Zufallsstichprobe ist, dass unter Umständen geringere Fallzahlen notwendig sind reduzierter Forschungsaufwand Somit ist die stratifizierte Stichprobe eine besondere Variante der Zufallsstichprobe, bei der der Forscher sein Vorwissen über den Forschungsbereich bei der Definition der Stichprobe einsetzt, wobei jedoch alle Fälle der Grundgesamtheit potentiell die gleiche Chance haben, in die Stichprobe aufgenommen zu werden. Somit handelt es sich auch hier um eine Zufallsauswahl. Matching Definition: Beim Matching wird für jedes Element der EG in der KG ein „statistischer Zwilling“ gesucht. Dieser sollte in verschiedenen, zuvor definierten Variablen dem Element aus der EG entsprechen (identisch sein, oder zumindest möglichst ähnlich). Probanden werden vor der Gruppenzuordnung zu Paaren zusammengestellt, die auf einer oder mehreren Matchingvariablen möglichst ähnlich sind Aus jedem Paar wird ein Mitglied nach Zufall der KG zugewiesen, das andere der EG zugewiesen (Analog für mehrere Gruppen) 75 Matchingvariablen sollten mit abhängiger Variablen zusammenhängen z.B.Prätest Varianz, die auf die Matchingvariable zurückgeht kann aus der Fehlervarianz eliminiert werden Trennschärfe erhöht Aber: Einbusse durch Verlust an Freiheitsgraden Sinnvoll daher nur wenn substantielle Varianz auf Matchingvariable zurückgeht Randomisierung im Feld Nachfrage größer als Treatmentverfügbarkeit o Z.B wenige Therapieplätze o Randomisierung als faire Zuweisungsmethode o Bei kurzfristigen wirksamen Treatments: Zeitstichproben <<(=„Zeitstichproben“ meint, formal gesagt, dass es nicht Personen oder Gruppen, sondern Zeitpunkte sind, die als units den Bedingungen zugeordnet werden. Wenn man etwa 3 kurzzeitig wirkende Medikamente plus zwei Placebotypen vergleichen will, könnte man einem Patienten über 5 Wochen jede Woche andere Pillen geben. Jede Woche wäre hier eine Unit, die einem bestimmten Treatment zugewiesen wird.)>> Wenn Personen keine klare Präferenzen haben Zusammenfassung Randomisierung als Voraussetzung für ein Experiment kann mit verschiedenen Methoden durchgeführt werden. Beachtet werden muss hierbei o Einhaltung von Quoten o möglichst hohe Verblindung gegenüber dem Durchführenden. Falls relevante Merkmale vor der Durchführung einer Untersuchung bekannt sind, kann nach diesen Merkmalen stratifiziert werden (geschichtete Stichprobe). Matching erlaubt die Bildung von statistischen Zwillingen. Hierbei können verschiedene Verfahren eingesetzt werden: o Matching „von Hand“ o Matching per binärer Regression o Matching über Clusterverfahren Prüfungsfragen • Welche Probleme sehen Sie, wenn in einer klinischen Studie mit einer kleinen Stichprobe mit Hilfe eines Münzwurfs randomisiert wird? • Was ist eine adaptive Randomisierung und warum wird diese durchgeführt? • Welche Verfahren können beim Matching eingesetzt werden? • Welches Problem kann auftauchen, wenn ein Matching mit sehr vielen Matchingvariablen durchgeführt wird? • Nennen Sie ein Beispiel für ein Experiment, bei dem eine Verblindung unbedingt notwendig ist. Begründen Sie Ihre Antwort. • Wann wird von einer Dreifachverblindung gesprochen? • Welchen Vorteil hat eine Dreifachverblindung gegenüber einer Zweifachverblindung? • Wie unterscheiden sich externe und interne Randomisierung? 76 10) Experimentelle Designs - Faktorielle Designs Experimentelle Designs Randomisierte Zuweisung als die wichtigste Voraussetzung für ein experimentelles Design Die Zuordnung (der Probanden, der Stimuli etc.) erfolgt zufällig und ist nicht beeinflussbar (durch den Probanden oder den Versuchsleiter). Wichtig: Randomisierte Zuweisung ≠ Zufallsstichprobe! ABER: Eine perfekte randomisierte Zuordnung ist keine Garantie dafür, dass sich nicht doch die Gruppen bei der Prä-Messung unterscheiden IMMER (auch bei experimentellen Designs) auf Unterschiede zwischen den Prä-Werten prüfen. Denn: „Der Zufall hat weder Gedächtnis noch ein Gewissen!“ 1)Verschiedene Möglichkeiten ohne Prä-Messung a) Grundlegendes Vorgehen R X O R O R = random assignment Design mit Kontrollgruppe Arten von KG: o Keine Behandlung Effekt auf molarer Ebene, Treatment als Packet wirksam oder nicht? o Placebo KG Unterschied nur hinsichtlich des Wirkfaktors, sonst alles gleich o Viele andere Formen der KG in Abhängigkeit der Fragestellung between-subjects -Design (die Manipulation wird an verschiedenen Teilnehmern durchgeführt). b) Varianten des Designs (1) R R XA XB O O Zwei Treatments, keine Kontrollgruppe. z.B. Neues Treatment im Vergleich zu Standardtreatment wenn dieses gut gegen KG abgesichert. c) Varianten des Designs (2) 77 R R R XA XBf O O O Zwei Treatments und eine Kontrollgruppe. Grundlegendes Problem von Designs ohne Prä-Messung: keine Prä-Messung! Sind Unterschiede zwischen den Gruppen wirklich mit dem Treatment begründbar? o Kleine (N) Stichproben Oder gab es vor dem Treatment schon Unterschiede zwischen den Gruppen? Bei Ausfall von Personen o Unterscheiden sich diese von denen die drin bleiben? o Und gibt es in diesem Zusammenhang Unterschiede zwischen den Gruppen Zwar kann durch die randomisierte Zuweisung eher davon ausgegangen werden, dass die Unterschiede im Treatment begründbar sind. Trotzdem kann / muss gezweifelt werden. 2) Verschiedene Möglichkeiten mit Prä-Messung Basisdesign: Prä-Post-Messung mit Kontrollgruppe R O1 X O2 R O1 O2 Within-subjects Design Auswertung: Varianzanalyse mit Messwiederholung (within-subject-design) Vorteile: - Höhere statistische Power, da teststärkeres Verfahren. - Höhere Validität, da Unterschiede zum Post-Messzeitpunkt, falls keine Unterschiede zum Prä-Messzeitpunkt vorlagen, auf das Treatment rückführbar sind. - Experimentelle Mortalität analysierbar - Randomisierung auch erst nach Prä-Messung möglich: O1 R X O2 O1 R O2 Beispiele: Prä-Wert ist Einschlusskriterium für die Studie. Anhand des Prä-Wertes soll nach Matching (bedingt) randomisiert zugeordnet werden. b) Varianten des Designs (1) R R O1 O1 XA XB O2 O2 Prä-Post-Messungen bei randomisierter Zuordnung und zwei unterschiedlichen Treatments ohne Kontrollgruppe c) Varianten des Designs (2) R O1 XA O2 78 R R O1 O1 XB O2 O2 Zwei Treatments und eine Kontrollgruppe. Problem: Bisher kann nur der Einfluss eines Faktors (mit verschiedenen Treatmentstufen) untersucht werden! Faktorielle Designs • Verknüpfung zweier Faktoren ist möglich R XA1B1 O1 R XA1B2 O1 R XA2B1 O1 R XA2B2 O1 2x2 Designs Alle möglichen Kombinationen der beiden zweifach gestuften Faktoren sind realisiert. Vorteile: Effizienz (einzelne Experimente für jeden involvierten Faktor aufwendiger) Testung von Treatmentkombinationen Interaktionseffekte Beispiel: Interaktionsformen: ordinale Interaktion Beide Haupteffekte sind interpretierbar (global) u. möglicherweise signifikant hybride Interaktion nur einer der beiden Haupteffekte ist interpretierbar disordinale Interaktion keiner der beiden Haupteffekte interptierbar. 79 Fazit Interaktionen: Bei zweifaktorieller Varianzanalyse immer beide Grafiken zur besseren Interpretation Bei vorliegenden signifikanten Interaktionen sind die Haupteffekt teilweise oder vollständig schwer zu interpretieren Interaktionen sind aber gerade bei Messwiederholungsdesigns hoch relevant. Typen von Faktoren Verschiedene Faktoren können in einem Design berücksichtigt werden: Behandlungs- bzw. Treatment-Faktoren Versuchsfaktoren Blockfaktoren Fixed- vs. Random-Faktoren a) Treatment-Faktoren Beispiele: Experiment zur Frustrations-Aggressions-Hypothese, 2-stufiger Treatment-Faktor Frustration (Proband wird frustriert / Proband wird nicht frustriert) Experiment zum Gedächtnis für Wörter, 3-stufiger Treatment-Faktor Instruktion (Vokale zählen / einprägen / bildlich vorstellen) 80 Die Faktorstufen bestehen aus unterschiedlichen Reizen, Instruktionen, Behandlungen oder Situationen. Die Faktorstufen stellen die vom Versuchsleiter hergestellten Operationalisierungen der Ausprägungen der unabhängigen Variablen dar. Die Untersuchungseinheiten werden in einem experimentellen Design den Faktorstufen zufällig zugewiesen. Treatment-Faktoren weisen somit die Merkmale „aktive Manipulation“ und „Randomisierung“ auf. Jedes Experiment hat mindestens einen Treatment-Faktor! b) Versuchsfaktoren Beispiele: Messwiederholungsfaktoren Trial-Faktoren within-subjects Jede Untersuchungseinheit wird unter allen Stufen des Faktors (wiederholt) beobachtet. Ein Versuchsfaktor führt immer implizit einen Personenfaktor P ein. Somit kann ein Mittelwert und eine Streuung (Varianz) pro Person ermittelt und in der Analyse berücksichtigt werden. Beispiel: einfaktorieller Messwiederholungsplan mit 3 Stufen c) Blockfaktoren Untersuchungseinheiten werden nach bestimmten Kriterien zu „Blöcken“ zusammengefasst, die die Stufen des Faktors bilden. Blockfaktoren sind quasiexperimentelle Faktoren, da die Zuweisung zu den Faktorstufen nicht zufällig geschieht, sondern durch bereits bestehende Unterschiede determiniert ist. Blockfaktoren dienen zur Realisierung der unabhängigen Variablen in Quasiexperimenten oder als Kontrollfaktoren in Experimenten. (Stratifizierung??) Blockfaktoren, die mit der abhängigen Variablen kovariieren, erhöhen die Power zur Entdeckung der Effekte anderer interessierender unabhängigen Variablen, da sie Varianz binden und so die Fehlervarianz verringern. Beispiele: Lebensalter - z.B. 5-fach gestuft: [0-15), [15-30), [30-45), … Bildungsniveau 81 - Anzahl der Bildungsjahre Soziale Schicht Intelligenz - IQ in gruppierten Werten c) Fester vs. zufälliger Faktor • Fixed- oder fester Faktor: o Die Faktorstufen sind theoretisch oder empirisch begründete Realisierungen der unabhängigen Variablen (oder sind Realisierungen einer unabhängigen Variablen mit wenigen Abstufungen). • Random- oder zufälliger Faktor: o Die Faktorstufen stellen eine Zufallsauswahl aus allen denkbaren Faktorstufen dar. o sollen eine Generalisierung auf die Population der möglichen Faktorstufen ermöglichen. • Fixed- und Random-Faktoren werden in der statistischen Theorie unterschiedlich behandelt. • Im Allgemeinen wird ein Modell mit festen Faktoren ermittelt. Solomon-Vier-Gruppen-Plan Bei experimentellen Designs sollte die Vergleichbarkeit (besonders bei kleinen Stichproben) durch einen Vortest überprüft werden. • Problem: „Sensibilisierung“ durch Vortest (Reaktivität, Übungseffekte etc.). • Umgehung der Prätesteffekte durch Solomon-Vier-Gruppen-Plan. Nachteil hierbei aber: Erhöhter Bedarf an Probanden. R R R R O1 X O1 X O2 O2 O2 O2 (Gruppe 1) (Gruppe 2) (Gruppe 3) (Gruppe 4) Vier randomisierte Gruppen erforderlich (höheres N). Zuwachs in der ersten Gruppe kann begründet werden durch: o mögliche Treatmenteffekte o mögliche Prä-Test-Effekte (Testung) o mögliche zeitgebundene Störvariablen (History) • Vergleich der Differenz zwischen den Mittelwerten von Gruppe 1 und Gruppe 2 = reiner Treatmenteffekt („Nettoeffekt“). • Dieser „Nettoeffekt“ müsste mit der Differenz der Postwerte in Gruppe 3 und 4 übereinstimmen falls es keine Effekt der Prä-Messung gibt. (Kontrolle von Testung und History) • Vergleich der Post-Werte von Gruppe 2 und 4 schätzt den Effekt der Prä- Messung ab. Anmerkung: Solomon-Vier-Gruppen-Plan kann auch in komplexeren faktoriellen Designs verwendet werden. Solomon-Vier-Gruppen-Plan – gewünschtes (fiktives) Ergebnis: R R R O1 X O1 X O2 O2 O2 (Gruppe 1) (Gruppe 2) (Gruppe 3) Nettoeffekt: (32-20) – (22-20) = 12 - 2 = 10 Kontrolle über: 30 – 20 = 10 82 Effekt der Prä-Messung: 22 – 20 = 2 (erfassbar über Prä-Post-Differenz in Gruppe 2 oder Differenzen der Post-Werte Gruppe 2 und R O2 (Gruppe 4) Fiktive Mittelwerte zu den zwei Messzeitpunkten: 20 32 (Gruppe 1) 20 22 (Gruppe 2) 30 (Gruppe 3) 20 (Gruppe 4) • Hierarchische Pläne Nur selten werden alle Hypothesen eines mehrfaktoriellen Plans geprüft (bzw. Hypothesen hierfür aufgestellt). • Nicht immer werden alle Interaktionseffekte bei mehrfaktoriellen Designs untersucht. • Trotzdem wird oft der „Luxus“ eines vollständigen faktoriellen Designs gewählt. Nachteil: • Bei vielen Stufen und Faktoren -> hoher Bedarf an Versuchspersonen, -> hoher zeitlicher und monetärer Aufwand • Lösung: Hierarchische Pläne nur ein Teil der möglichen Kombinationen wird realisiert • Beispiel: Faktor A: Unterrichtsform Faktor B: verschiedene Schulbücher Vorteil: weniger VP notwendig Nachteil: Interaktionseffekte sind dargestellt b) Dreifaktorielle Pläne c) Teilhierarchische, faktorielle Pläne 83 Die vorgegeben hierarchischen Kombinationen der Faktoren A und B werden mit allen Stufen des Faktors C faktoriell kombiniert. Hierarchische Pläne - Zusammenfassung Vorteil: Eine geringere Anzahl an Treatmentkombinationen muss realisiert werden. Jede einzelne Stufe eines Faktors A tritt nur unter jeweils einer Stufe des anderen Faktors B auf. Voraussetzung ist, dass die Anzahl der Stufen des Faktors B unter allen Stufen des Faktors A gleich ist. • Diese muss bei der varianzanalytische Auswertung berücksichtigt werden (siehe z.B. Werner, 1997). Nachteil: Interaktion zwischen den Faktoren A und B sind nicht definiert und somit nicht testbar. Quadratische Pläne Untersuchungsschemata mit zwei- oder mehrfaktoriellen Designs, wobei jeder Faktor p Stufen aufweist Bei zwei Faktoren sind somit p2 Untersuchungsgruppen notwendig Bei zwei Faktoren sind somit p2 Untersuchungsgruppen notwendig. Allerdings lassen sich mit identischem Aufwand (identischer Gruppenzahl) auch dreifaktorielle Designs testen (über lateinische Quadrate). Lateinisches Quadrat 84 Vorteil: Weniger Gruppen -> geringere Gesamtstichprobengröße Nachteil: Nur Haupteffekte können getestet werden, da Design nur bezüglich der Haupteffekte ausbalanciert ist. Interaktion zwischen den Faktoren A und B sind nicht definiert und somit nicht testbar. Haupteffekte können nur interpretiert werden, wenn bei den Interaktionseffekten davon ausgegangen werden kann, dass diese Interaktionseffekte vernachlässigbar sind (theoretische Vorannahme). Griechisch-lateinische Quadrate Weitere Anordnung für 4 Faktoren Voraussetzung: orthogonale lateinische Quadrate Frage: Was sind orthogonale lateinische Quadrate (bzw. was sind nichtorthogonale lateinische Quadrate)? Orthogonale lateinische Quadrate Nicht-orthogonale lateinische Quadrate Orthogonale lateinische Quadrate jede Kombination kommt gleich häufig vor Nicht-orthogonale lateinische Quadrate unterschiedliche Häufigkeiten Kombination mit orthogonalen lateinischen Quadraten auch hier gilt: o Haupteffekte ausbalanciert o keine Interaktionseffekte vorausgesetzt (und auch nicht überprüfbar) Griechisch-Lateinische- Quadrate: 85 Vorteil griechisch-lateinischer Quadrate: weniger (viel weniger) Stichproben Beispiel: 4 Faktoren, jeweils 4 Stufen • 44 = 256 Gruppen nach faktoriellem Design • 16 Gruppen nach griech.-lat.- Quadrat Weitere Anwendungsgebiete von lateinischen Quadraten • Kontrolle der Stimulusreihenfolge Darbietung vieler Stimuli im experimentellen Design Gefahr von Reihenfolgeneffekten Lösungsansatz 1: Permutation der Stimuli Permutation der Stimuli Ausbalancieren durch Permutation Nachteil des Ausbalancierens: großer Aufwand Wird die abhängige Variable in k verschiedenen Bedingungen erhoben, so müssen k! verschiedene Reihenfolgen realisiert werden: • 2! = 2 3! = 6 • 4! = 24 5! = 120 … • 10! = 3.628.800 Prüfungsfragen • Ist die Voraussetzung für eine randomisierte Zuweisung eine Zufallsstichprobe? • Warum sollte auch bei einer randomisierten Zuweisung nicht auf eine Prä-Messung verzichtet werden? • Welche Gefahr besteht, wenn beispielsweise bei der Auswertung von Video-Daten der Auswertende Kenntnis von der Zugehörigkeit zur Experimental- oder Kontrollgruppe hat? • Beschreiben Sie ein faktorielles Design mit einem zweifach- und einem dreifach-gestuften Faktor. • Interaktionseffekte aus einer Mittelwertstabelle grafisch darstellen und interpretieren. • Interpretation von Interaktionseffekten bei einem Messwiederholungsdesign. • Was sind within-subjects- und was betweensubjects- designs? (Vorteile / Nachteile) • Beschreiben Sie den Solomon-Vier-Gruppen- Plan. • Beschreiben Sie Vor- und Nachteile von hierarchischen Plänen gegenüber faktoriellen Plänen. Thema 11: Das Problem von und der Umgang mit fehlenden Werten Lehrziele: Definition von fehlenden Werten Statistische Folgen von fehlenden Werten Missing-Data-Diagnose Missing-Data-Prozess Verschhiedene Auftretensformen von fehlenden Werten Umgang mit fehlenden Werten Klassische Verfahren Neuere (bessere) Verfahren Fehlende Werte –Definition Fehlende Werte liegen vor, wenn Angaben im Datensatz fehlen, obwohl die entsprechende Merkmalsausprägungen empirisch vorliegen. o z.B.: Angabe des Alters, Geschlechts 86 o Aber: Keine fehlenden Werte, falls das jeweilige Merkmal nicht vorliegt (z.B. Schwangerschaftsmonat bei Männern). Fehlende Werte sind ein Problem, o welches im „Forschungsalltag“ häufig auftritt und für Probleme bei der statistischen Auswertung und Interpretation sorgt, aber welches (zu) wenig diskutiert wird. Zwei grundsätzliche Problem beim Vorliegen von Missing Data Die Effizienz und Power, besonderes bei den multivariaten Verfahren und Analysen im Messwiederholungsdesign wird im Allgemeinen erheblich beeinträchtigt. o Es werden oft jene Fälle komplett ausgeschlossen, bei welchen ein fehlender Wert vorliegt. Dies ist allerdings in der klinischen Forschung häufig der Fall -> starke Reduktion der Analysestichprobe. Es muss mit einer Verzerrung (bias) bei der Identifikation unterliegender Strukturen gerechnet werden. o Eventuell führt nur eine bestimmte Subgruppe die Untersuchung bis zum Ende durch, so dass die Ergebnisse in Richtung der Subgruppe verfälscht werden. Beispieldatensatz Messung der subjektiven Einstellung zur „Versuchsplanung“ zu Beginn und am Ende des Semesters (fiktiver Datensatz) Variablen: o Alter, o Geschlecht, o Einstellung zum Fach „Versuchsplanung“, o allgemeine Studienmotivation Fehlende Werte • Wie wirken sich fehlende Werte auf die statistischen Analysen aus? • Welche Folgen hat dies für die Aussagekraft der Auswertung? Beispiel: Beim zweiten Messzeitpunkt t2liegen 87 Erster Analyseschritt Missing Data-Diagnose: Festlegung der Anzahl der fehlenden Werte. - Je Variable - Je Person / subject - Eventuell Ausschluss einzelner Personen oder Variablen. - Weitere Diagnostik, falls mehr als 5% fehlenden Werte! Überprüfung der Zusammenhänge des Fehlens von Werten mit anderen Informationen im Datensatz. Indexvariablen erstellen: Variable liegt vor / liegt nicht vor Unterscheiden sich beide Gruppen innerhalb des Merkmals (z.B. zu einem anderen Messzeitpunkt)? Unterscheiden sich beide Gruppe in anderen Merkmalen (z.B. soziodemografische Variablen)?z.B. soziodemografische Variablen 88 Missing-Data-Prozess Die Suche nach „Ursachen“ des Fehlens von Angaben in Datensatz. Frage: - Gibt es Zusammenhänge des Auftretens von fehlenden Werten mit gemessenen und nicht gemessenen Variablenausprägungen anderer Variablen. Problem: - Teilweise überprüfbar, teilweise nur eine Annahme des Auswertenden. Definitionen von fehlenden Werten 3 Typen von fehlenden Werten - Missing Completely at Random (MCAR) - Missing at Random (MAR) - Not Missing at Random (NMAR or nonignorable) a) Missing Completely at Random (MCAR) (idealster Fall) Tritt auf, wenn die fehlenden Werte über alle Beobachtungen hinweg zufällig verteilt sind. Fälle mit fehlenden Werten unterscheiden sich nicht von Fällen ohne fehlende Werte. Ob ein Wert fehlt, steht mit keiner der erhobenen Variablen in Zusammenhang (Keine Korrelation des Auftretens von fehlenden Werten mit Y selbst und mit einem Prädiktor X). D.h.: - Keine Korrelation der fehlenden Wert mit Y selbst -> es kann davon ausgegangen werden, dass es sich THEORETISCH bei den vollständigen Daten um ein Subsample des (nicht vorhandenen) Gesamtdatensatzes handelt. - Mit den Ausprägungen eines Prädiktors X kann das Fehlen von Y nicht vorhergesagt werden. 89 Beispiel: Mit den Werten zu t1 kann das Fehlen / NichtFehlen der Variablen zu t2 nicht vorhergesagt werden. (Keine Korrelation des Wertes zu t1 und mit dem Fehlen von Werten dieser Variablen zu t2 ) Die Tatsache, dass man in einer Variable keine Angabe macht, darf jedoch mit dem Fehlen einer anderen Variablen zusammenhängen. o z.B.: Wer sein Gehalt nicht angibt, darf auch sein Alter eher nicht angeben.(Korrelation vom Fehlen der Werte) Wenn MCAR für alle Variablen vorliegt, ist die Gruppe der Personen mit vollständigen Variablenangaben ein repräsentatives Subsample aller Personen im Datensatz. Im „wahren Leben“ meistens zu streng, da es bei einer Vielzahl von Variablen sicherlich eine signifikanten Zusammenhang gibt. Missing at Random (MAR) Das Auftreten eines fehlenden Wertes in Y kann vollständig durch andere Variablen erklärt werden. Personen mit vollständigen Daten unterscheiden sich von Personen mit unvollständigen Daten. D.h. das Fehlen von Werten kann durch weitere Variablen erklärt werden. (Z.B. Frauen geben ihr Gewicht nicht an oder Personen mit einer Eigentumswohnung etc.). Das Fehlen von Werten kann aber nicht durch Ausprägungen in der Variablen selbst begründet sein (dies kann aber nicht am Datensatz getestet werden!). MAR – Lösungsmöglichkeiten multiple imputation und maximum likelihood. Nonrandom Missing (NRM) Ob ein fehlender Wert in der abhängigen Variablen Y auftritt, steht nur in Zusammenhang mit der Ausprägung von Y selbst. 90 Z.B. Personen mit höherem Gewicht geben dieses nicht an, wobei im Datensatz keine Variablen zur Vorhersage dieses Fehlens sind. Es muss aber von einer systematischen Verzerrung ausgegangen werden Ob ein Wert in Y fehlt, kann durch keine andere Variable im Datensatz vorhergesagt werden. Ersetzung schwierig. Lösungsansätze: selection models und pattern mixture Folgen des Typs von fehlenden Werten In Abhängigkeit von den vorliegenden und angenommenen Bedingungen können verschiedene Ersetzungsverfahren angewendet werden s. Bei MCAR gibt es die meisten Verfahren. Vor- und Nachteile dieser Verfahren sollen im Folgenden erläutert werden. Klassische Verfahren a) Listwise deletion: Wenn in einer der zu analysierenden Variablen ein Fehlwert vorliegt, so fällt diese Person aus der Berechnung aller Kennwerte heraus. b) Pairwise deletion: Eine Person wird nur bei Berechnung des Kennwerts (z.B. einer Korrelationen) nicht berücksichtigt, wenn einer der Werte der direkt betroffenen Variablen nicht vorliegt. c) Mittelwertersetzung (normalerweise durch Variablenmittelwert): Fehlwerte einer Person werden durch den Mittelwert der betreffenden Variablen der Personen mit vorhandenen Daten ersetzt. a) Eigenschaften der listwise deletion (fallweiser Ausschluss) complete information-Ansatz anwendbar bei MCAR, aber o unter Umständen folgt eine starke Reduktion des effektiven N (besonders bei vielen Variablen) o allgemein größerer Standardfehler o starker Verlust der Teststärke Liegen nur fehlende Werte bei den Prädiktoren (multiplen oder logistischen Regression) vor, ist listwise das robusteste Standardverfahren. Unter den Standardverfahren ist ‚listwise‘ das Verfahren, das im Allgemeinen den geringsten systematischen Fehler verursacht, wenn MCAR vorliegt. 91 b) Eigenschaften der pairwise deletion (paarweiser Ausschluss) All-available-Information-Ansatz Personen / Fälle gehen in die Berechnung ein, falls bei den jeweils betroffenen Variablen vollständige Daten vorliegen. Problem: In die Berechnung jeder Statistik gehen eventuell die Werte einer andere Substichprobe ein. Nur wenn diese „Sub“-Stichproben strukturell vergleichbar sind, ergeben sich keine Verzerrungen. • Anwendbar, wenn MCAR vorliegt. c) Eigenschaft der Mittelwertsersetzung Folgen der Ersetzung: o Vernichtung von Varianz o Minderung von Korrelationen Mögliche Ersetzungen MCAR: paarweise, fallweise, FIML MAR: FIML NRM (FIML) Weitere Lösungsansätze regression imputation Ermittlung einer Regressionsgerade innerhalb der vollständigen Datensätze Vorhersage der fehlenden Werte mittels dieser Regressionsgerade bei den unvollständigen Datensätzen Zwischenfazit Ersetzung durch Mittelwerte: Zusammenhänge werden unterschätzt. Ersetzung durch Regression: Zusammenhänge werden überschätzt (da kein Fehler modelliert wurde). Beide Methoden sind nicht optimal. Deshalb: neuere Methoden: - 1) E(xpectation)-M(aximation)-Algorithmus 92 - 2) Multiple Imputation (mit integriertem EM-Algorithmus) 1) E(xpectation)-M(aximation)- Algorithmus Es wird ein Modell generiert, welches 1.) den vorhandenen Beziehungen im Datensatz und 2.) den Beziehungen zu den aufgetretenen Missing-Werten, wenn MAR vorliegt, optimal gerecht wird. 3.) Zusätzlich wird die Zufallsvariabilität der Daten simuliert. Expectation-Schritt: Es werden auf Basis der Beziehungen im Datensatz Schätzwerte für die Missing-Werte generiert. (Entspricht der Regressionsimputation) Maximation-Schritt: Es werden die Kovarianzmatrix und die Mittelwerte dieser neuen Matrix berechnet (> Verbesserung der Schätzung) Diese Schleife wird durchlaufen, bis das Modell sich nicht mehr substantiell verändert bzw. der iterative Prozess konvergiert. EM-Algorithmus (Programm ersetzt Fehler, so dass Zusammenhänge im unvollständigen Datensatz den fehlenen Werten entspricht) Der EM-Algorithmus ermittelt eine in sich möglichst widerspruchsfreie Informationsstruktur. Der EM-Algorithmus führt nicht zu einer trivialen Maximierung von Zusammenhängen. Alle intervallskalierten Variablen, die in eine Analyse eingehen, sollten auch für die EMImputation genutzt werden. Software Vollversion von SPSS hat den EMAlgorithmus ab Version 14 integriert freie Software: NORM von Schaefer 2) Multiple Imputation Mehrfache Ersetzung (=Imputation) von fehlenden Werten durch m > 1 plausible Werte Erweiterung von einfachen Imputationsmethoden (z.B. Mittelwert, Regression,...) MI als state of the art-Methode zur Behandlung von fehlenden Werten (neben maximum-likelihood-Methode) (vgl. Schafer & Graham, 2002) Vorteile von MI: Nutzung der verfügbaren Information in beobachteten Daten Komfortable Auswertung von vollständigen Datensätzen möglich 93 universeller Einsatz für verschiedenste Fragestellungen möglich Berücksichtigung der Unsicherheit aufgrund von fehlenden Werten Vorteil: Berechnung statistischer Parameter (Punktschätzer und ihre Standardfehler) mit Hilfe von Standard-Statistik-Software (SPSS, SAS,..) Beispiele: Mittelwerte, Regressionskoeffizienten, Kovarianzen und Korrelationen, ... Berechnung der zugehörigen Standardfehler (SE) notwendig MI Punktschätzer: Berechnung des arithmetischen Mittels der m Statistiken (z.B.Mittelwerte) aus m imputierten Datensätzen Varianz (gesamt) = Varianz (innerhalb der m Datensätze) + Varianz (zwischen den m Datensätzen) Berechnung von weiteren Statistiken, z. B. Freiheitsgrade, t-Werte, p-Werte, Konfidenzintervalle (95%) Zusammenfassung zur Analyse fehlender Werte Bei Planung der Datenerhebung sollten möglichst aufschlussreiche Kovariaten berücksichtigt werden (systematische Erzeugung von MAR) Kodierung unterschiedlicher Arten von Missings (Erhebungsprobleme, Antwortverweigerung, keine logische Antwort möglich) Bei mehr als 5% Missings pro Variable sollte immer eine MD-Diagnostik durchgeführt werden. Oft können durch Eliminierung weniger Fälle oder weniger Variablen wesentlich stabilere Strukturen gefunden werden. Indexbildung und Verwendung alternativer hochkorrelierter, aber vollständiger Variablen. Auch wenn keine Ersetzung durchgeführt wird: Charakterisierung von MD im Kontrast zu Respondern wichtig (Drop-out-Analyse). MD-Gruppe als unabhängige Variable in das Design aufnehmen. Unter den verfügbaren Alternativen zum Umgang mit MD sind EM-Imputation und Multiple Imputation an die schwächsten Voraussetzungen (MAR) geknüpft und ermöglichen höchstmögliche Teststärke. Parallele Angabe von Ergebnissen für Originalmatrix und für Matrix mit imputierten Werten ist am aufschlussreichsten. Abschließend: Fehlende Werte stellen immer ein Problem dar: “The only really good solution to the missing data problem is not to have any.” (Allison, 2001) Prüfungsfragen • Probleme / Folgen von fehlenden Werten, besonders bei multivariaten Verfahren 94 aufzeigen. • Einfache Lösungsansätze diskutieren. • Folgen „schlechter Lösungsansätze“ • Das Wissen, dass es bessere Lösungen gibt (nicht unbedingt, wie diese im kleinsten Detail funktionieren). Thema 12: Praktische Probleme bei der Durchführung Lehrziele: • Ethik und Recht • Patientenrekrutierung • Probleme von Randomisierung Ethische und rechtliche Grundlagen von Experimenten Untersuchungen an Menschen • Kritische Punkte: • Verweigerung eines möglicherweise wirksamen Treatments (bei der Kontrollgruppe) • Randomisierte Zuweisung vs. Zuweisung nach Bedarf • Abbruch eines Experiments • Rechtliche Probleme / Einschränkungen • Generell gilt hier: Voraussetzungen müssen immer überprüft werden, oft ist eine Hilfestellung durch Externe (z. B. Ethikkommission) notwendig, bzw. wird eine externes Gutachten vorausgesetzt. Ethik bei wissenschaftlichen Experimenten Historischer Hintergrund: - „Experimente“ in der Zeit des Nationalsozialismus - „Wissenschaftliche Forschung“ an Menschen Meist durchgeführt in Konzentrationslagern: • Ärzte wie • Josef Mengele (KZ Auschwitz), Robert Ritter (KZ Buchenwald) • „Medizinische Experimente“, welche meist zu einem qualvollen Tod führten • Fleckfieber, Salzwasserversuche, TBC Erregern, Beifügen von Brandbombenverletzungen Klassische Experimente: • Auch bei klassischen Experimenten wurden manchmal ethische Grundsätze verletzt. • Beispiel: John B. Watson („Albert“ oder „der kleine Albert“ genannt) - Watson berichtet nichts über eine Desensibilisierung des Jungen nach Ende des Experiments. - Es besteht sogar der Verdacht, dass er sich den Jungen ohne das Wissen der Mutter „ausgeliehen“ hat. (Das Experiment fand in einem Krankenhaus statt. Der Grad der Unkenntni der Mutter wird in der Literatur diskutiert. Sicherlich wurde sie nicht vollständig über alle möglichen Folgen etc. aufgeklärt.) - Nach dem Experiment haben Mutter und Kind das Krankenhaus verlassen, ohne dass es zu einer weiteren Aufklärung der Mutter kam. • Ob Watson das Kind nicht desensibilisieren konnte oder wollte ist nicht bekannt. Ethische Richtlinien und Prinzipien • Respekt gegenüber der Versuchsperson 95 • Der Proband hat das Recht zu entscheiden, ob er an einer Studie teilnehmen will (informed consent) oder nicht (er hat auch das Recht, jederzeit ein Experiment abzubrechen). • Falls Personen diese Entscheidung nicht selbst treffen können, besteht eine besondere Sorgfaltspflicht (z.B. Kinder etc.). • Nutzen-Schaden-Relation • Zu erwartender Nutzen und zu erwartender Schaden werden in ein Verhältnis gesetzt. Generell wird davon ausgegangen, dass ein - maximaler Nutzen eines Experiments bei - einem minimalem Schaden durch das Experiment zu erwarten ist. • Wird ein hoher Nutzen erwartet, kann auch das Risiko eines geringen Schadens im Kauf genommen werden. • Wird nur ein geringer Nutzen erwartet, darf keine (oder kaum) die Gefahr eines Schadens vorliegen. Gerechtigkeit • Fairness bei der Verteilung des Treatments auf die Versuchspersonen. • Keine Benachteiligung bestimmter Gruppen o z.B. Frauen, bestimmte soziale Schichten, bestimmte Patientengruppen • Versuchspersonen, denen aus versuchsplanerischen Gründen ein effektives Treatment vorenthalten wurde, müssen auf andere Art „entlohnt“ werden, o z.B. durch die Weitergabe von Informationen, bevorzugte Behandlung an anderer Stelle etc. Informed Consent • Versuche werden nur mit Probanden durchgeführt, welche vor der Durchführung eines Experimentes schriftlich informiert wurden und sich schriftlich einverstanden erklärt haben. • Informationen zum informed consent beispielsweise unter: http://www.hhs.gov/ohrp/humansubjects/guidance/45cfr46.htm Inhalte: (1) Zweck, Dauer, Verfahren.. > mögliche Täuschungen müssen von der VP abgesegnet sein, d.h. ich muss ggffs. Die VP informieren, dass sie evtl. getäuscht wird und diese muss damit einverstanden sein (2) Vorhersehbare Risiken (3) Nutzen für die VP und für andere (4) Hinweis auf Alternativen (5) Datenschutz (6) Größeres als ein minimales Risiko vorhanden? Wer haftet? Wer ist Ansprechpartner? (7) Wer ist Ansprechpartner für auftretende Fragen? (8) Freiwilligkeit der Teilnahme: es darf kein Nachteil entstehen, wenn Studie abgebrochen wird Informed Consent –zusätzliche Inhalte 1) Gefahren bei Vorliegen einer möglichen Schwangerschaft 2) VL kann Exp. Jederzeit beenden (wenn VP so im Exp. Drin sind, dass sie sich selbst gefährden) 3) Übernahme zusätzlicher Kosten 4) Konsequenzen eines Rücktrittes (z.B. nicht wieder zurückkehren in die EG) 5) Neuere Forschung 96 6) Anzahl der VP > dadurch Hinweis zum Datenschutz • Besondere Vorgaben bei der Durchführung von Experimenten mit • schwangeren Frauen, • Gefängnisinsassen und • Kindern. • Bei diesen Personengruppen besteht einerseits eine erhöhte gesundheitliche Gefährdung (nicht nur für die Mutter, sonder auch für das Kind) und andererseits ein Abhängigkeitsverhältnis (Vergünstigungen für Gefängnisinsassen, Abhängigkeit der Kinder von den Eltern). • Auch sollte die Abhängigkeit beispielsweise im therapeutischen Kontext berücksichtigt werden. Es dürfen keine nachteile für VP entstehen, die nicht teilnehmen möchten. Institutional Review Boards (in Kommission: Ärzte, Psychos, Juristen, Statistiker um Fallzahlen zu beurteilen) • In Deutschland: Ethikkommissionen • An jeder Universität, an jedem Klinikum, aber auch bei der DFG (Deutschen Forschungsgemeinschaft). • Antragstellung bei jedem Experiment / Forschungsantrag im klinischen Kontext. • Antragstellung aber auch oft im Bereich der Grundlagenforschung. • In den USA muss jedes Experiment durch eine Kommission bestätigt werden. Ethikkommissionen • Bewertung des Antrags unter verschiedenen Gesichtspunkten: - informed consent - wissenschaftliche Qualität - statistische power Hierdurch werden Kosten und Nutzen gegeneinander abgewogen. • • • Benötigt rein psychologische Forschung auch eine Ethikkommission? Oder ist dieses Vorgehen nur in der medizinischen Forschung sinnvoll? Notwendig bei Untersuchungen, bei welchen den untersuchten Personen Risiken zugemutet werden (z.B. in der psychopharmakologischen und der Schmerz-Forschung), oder für Studien, in denen die Untersuchten nicht restlos über Ziele und Verfahren der Studien aufgeklärt werden (können). • http://www.dgps.de/dgps/kommissionen/ethik/002.php4 Bei nein von Ethikkommission: Forschungsantrag geht nicht durch, Publikation nicht möglich. • Was wird beurteilt? 1) Angaben zu Rahmenbedingungen des Vorhabens: • Wer finanziert das Projekt (Forschungsträger)? Verlangt dieser eine EthikStellungnahme? Wann ist mit einer Entscheidung des Forschungsträgers zu rechnen? • Wie werden Versuchsteilnehmer rekrutiert (z.B. durch Anzeigen, Random-Wahl aus Listen)? • Wird die Teilnahme vergütet? Werden Teilnehmern andere Vorteile zugesagt? • Ist die Freiwilligkeit der Teilnahme gesichert? Geldgeber: Pharmaindustrie, EU, DFG, Bundesministerium für Forschung/Gesundheit, VW, private Stiftungen. 97 2) Angaben zum Gegenstand und zum Verfahren des Vorhabens: • Werden Angaben zu Zielen und Verfahren des Vorhabens gemacht, wie in DFG-Anträgen üblich? • Findet eine Charakterisierung der Probanden- Stichprobe statt u.a. durch Altersangaben? • Werden die Untersuchten körperlich beansprucht (z.B. durch Entnahme von Blut, Speichel, durch Medikamenten- oder Placebo-Gaben, durch invasive oder nichtinvasive Messungen)? 3) Angaben zum Gegenstand und zum Verfahren des Vorhabens: • Werden die Untersuchten mental besonders beansprucht (z.B. durch Tätigkeitsdauer, aversive Reize, negative Erfahrungen)? • Geben die Untersuchten persönliche Erfahrungen oder Einstellungen preis? • Werden die Untersuchten absichtlich unvollständig oder falsch über Untersuchungsziele oder Verfahren instruiert (z.B. durch manipulierte Rückmeldungen über ProbandenLeistungen)? 4) Angaben über die Informierung der Untersuchten (Informationstext) • Wird detailliert über Ziele und Verfahren der Untersuchung aufgeklärt, wie auch • über die Dauer der Untersuchung, • über Belastungen und Risiken durch spezifische Untersuchungsverfahren, • über Vergütungen und andere Zusagen an die Probanden und • über die jederzeitige und folgenlose Rücktrittsmöglichkeit von der Teilnahmebereitschaft? 5) Angaben zum Datenschutz: • Welche personbezogenen Daten werden erhoben? • Sind Video- oder Tonaufnahmen oder andere Verhaltens-Registrierungen vorgesehen? • Wie wird die Anonymisierung erhobener Daten gesichert? • Wann werden die gespeicherten Daten gelöscht? • Können Probanden jederzeit die Löschung ihrer Daten verlangen? 6) Angaben zur Erklärung der Bereitschaft • Nimmt die Bereitschafts-Erklärung eindeutig Bezug auf die Teilnehmer-Information? • Führt sie vorgesehene Maßnahmen zum Datenschutz auf? • Bestätigt sie die Freiwilligkeit der Teilnahme an der Untersuchung? • Erwähnt sie das Recht, die Bereitschaftserklärung zu widerrufen? Verweigerung eines möglicherweise effektiven Treatments • Was kann getan werden, falls eine Verweigerung des Treatments (aus versuchsplanerischer Sicht) nicht „möglich“ oder sinnvoll ist? o Dosis-Wirkungs-Designs o Treatmentangebot für alle Teilnehmenden o „treatment-on-demand“-Kontrolle 1) Dosis-Wirkungs-Designs • Treatment wird in verschieden starken Dosierungen (Treatmentstärken) dargeboten • Bei der statistischen Auswertung wird die Treatmentgruppe mit dem schwächsten Treatment als „Placebogruppe“ gewertet und dementsprechend analysiert. • Designs möglich, da Placebo auch schon eine Wirkung auf die Probanden zeigt. Es wird davon ausgegangen, dass einem höheren Treatment ein höherer Effekt folgt. 98 2) Treatmentangebot für alle Teilnehmenden • Jeder Teilnehmende erhält eine „Basisintervention“. • z.B.: Fortbildungsprogramm für alle Interessierten und somit alle Studienteilnehmer + anschließend zusätzliches Angebot für die randomisiert zugewiesene Treatmentgruppe • Nachteile: • (Vermutliche) Abschwächung der Effekte, da nur zusätzliche Effekte der „zusätzlichen“ Intervention gemessen werden können. • Da nur kleine Effekte durch die „zusätzliche“ Intervention erwartet werden können, ist zur statistischen Absicherung der Effekte ein größeres N notwendig. • Aber: • Design wird häufig gerade in der klinischen Forschung eingesetzt, da hier die Bildung einer „reinen“ Kontrollgruppe oft nicht möglich ist. 3) „treatment-on-demand“-Kontrolle • Wünsche / Bedarf der Probanden haben gegenüber der Randomisierung /randomisierten Zuordnung Priorität • Durchführung: es werden mehr Probanden der Kontrollgruppe als der EG zugeordnet. z.B.- Aufteilung 30% EG und 70% KG • Falls Probanden in der KG einen Bedarf an einer Intervention sehen, dürfen sie sofort in die EG wechseln. Beispiel: Klinische Studie über mehrere Monate Probanden in der Kontrollgruppe erhalten nur eine „Basisversorgung“ mit einer Sitzung im Monat. Falls die Probanden selbst einen höheren Bedarf sehen, werden sie aus der Kontrollgruppe ausgeschlossen und erhalten sofort die benötigte Anzahl der Therapiesitzungen. Nachteile: • Vergleichbarkeit von KG und EG, da aus der KG eher die schweren Fälle ausscheiden. • Je nach Zeitpunkt des Wechsels sind die Daten der „Wechsler“ nicht verwertbar (oder bilden eine weitere Untersuchungsgruppe). o Es entstehen Untergruppen von Personen, welche – früh oder – in der Mitte der Studienlaufzeit oder – sehr spät o gewechselt haben. Sind diese Gruppen ähnlich oder muss eine Vielzahl von Untergruppen gebildet werden (N pro Gruppe = ?)? Randomisierte Zuweisung und Ethik ?! Ist Randomisierung gerecht? Fragen: Sind die ethischen und die versuchsplanerischen Anforderungen an eine Studie vereinbar? Sind aus Sicht der Versuchsplanung gute Studien ethisch kritisch zu sehen? Können aus ethischer Sicht „saubere“ Studien aufgrund der Versuchsplanung kritisiert werden? Grundsätzlich gilt: Der Wunsch nach Randomisierung darf nicht über dem Behandlungsbedarf von Patienten stehen. Durch Randomisierung darf kein Schaden für die Probanden entstehen. Teillösungen für ethische Bedenken gegen Randomisierung Design diskontinuierlicher Regression mit Zuteilung nach Bedarf / Verdienst 99 Strata nach Bedürftigkeit bilden und in den Strata mit hoher Bedürftigkeit mehr Vpn dem treatment zuweisen Dose-response-Design Adaptives Design: Zuweisung zu der im Laufe der zeit erfolgreichsten Bedingungen erhöhen. Randomisierung öffentlich durchführen (Ziehung der Lottozahlen) um Akzeptanz zu erhöhen Rechtliche Probleme Es darf keine Benachteiligung eines Probanden aufgrund von o Alter, o Geschlecht, o Nationalität, o Religionszugehörigkeit etc. geben • Wenn dies trotzdem gegeben ist, besteht möglicherweise die Gefahr von Klagen. • Bsp.: betriebliche Fortbildungsmaßnahmen Rekrutierung von Teilnehmenden Fragen, welche vor der Rekrutierung gestellt werden sollten: Wie kann eine ausreichende Anzahl von Versuchspersonen erreicht werden? o Ist eine ausreichende statistische Power gegeben? Wie groß ist der Anteil der Teilnehmenden an der Zielpopulation? o Wird eventuell nur ein zu kleiner Teil der Gesamtpopulation eingeschlossen? Ist Stichprobe und Population noch vergleichbar? o Gibt es eventuell so viele Ausschlusskriterien, dass die resultierende Stichprobe nur noch eine sehr selektive Teilstichprobe darstellt? Grundsätzliches Problem: Definition der Zielgruppe Welche Gruppe soll in der jeweiligen Studie untersucht werden (und welche nicht)? Bsp.: - suizidgefährdete Patienten - Definition von Einschluss- und Ausschlusskriterien Trotz der Definition von Kriterien: - Wer nimmt wirklich an einer Studie teil, bzw. wie groß ist der Prozentsatz der eingeschlossenen Personen an der Population? Optimaler Stichprobenumfang! Wichtig: Nach der Ermittlung des optimalen Stichprobenumfangs muss ermittelt werden, ob diese Stichprobe überhaupt erreicht werden kann. (z.B. über Krankenkassendaten, Stationsstatistiken, etc.). - Werden beispielsweise wirklich genügend Patienten mit einem entsprechenden Krankheitsbild in der jeweiligen Einrichtung behandelt? Bei dieser Ermittlung schon zu erwartende drop-outs etc. berücksichtigen. - Je mehr Messzeitpunkte, desto größer ist der zu erwartende drop-out. Im Verlaufe einer Studie, der Datenerhebung, immer die Probandengewinnung, die Stichprobe, beobachten und gegebenenfalls rechtzeitig eingreifen - Eventuell schon früh eine oder mehrere weitere Kliniken zur zusätzliche. Datenerhebung gewinnen. Was tun, wenn die Stichprobe nicht die benötigte Größe erreicht wird? 100 Setzen einer Deadline, bis zu welcher ein bestimmter Anteil an Probanden erhoben sein muss. Überlegungen hierzu möglicherweise schon vor dem Studienstart. - Machbarkeitsstudien vor eigentlichem Studienbeginn durchführen. Erwartete Stichprobenumfänge eher konservativ rechnen und vom worst case ausgehen, anstatt beispielsweise zu positiv von steigenden Patientenzahlen auszugehen. - Bei der stationären Versorgung gibt es im Moment eher einen rückläufigen Trend. Auch werden beispielsweise immer wieder Kliniken relativ kurzfristig geschlossen. Erhöhung der Stichprobe Möglichkeiten: - Dauer der Datenerhebung verlängern falls dies möglich ist – längere Datenerhebung = erhöhte Kosten! an weiteren Stellen andere Versuchspersonen gewinnen - z.B. andere Klinike Veränderung (Lockerung) der Auswahlkriterien - kritisch, da die Stichprobe dann eventuell zu heterogen wird eher die Treatmentgruppe bei der Zuordnung „bedienen“, - falls die statistische Power gesichert ist Notbremse: Abbruch des Experiments Prüfungsfragen • Was wird mit „informed consent“ bezeichnet? • Sie wollen eine Untersuchung durchführen, bei welcher die Versuchspersonen getäuscht werden. Warum ist das aus ethischen Gründen kritisch zu sehen? Sind solche Versuche aus ethischer Sicht überhaupt vertretbar? Was müsste in der Einverständniserklärung erwähnt werden? • Unter welchen Voraussetzungen kann bei einer Studie ein Risiko für die Probanden akzeptiert werden? • Nennen Sie eine mögliche Probandengruppe, bei welcher die Rechte der Versuchspersonen noch stärker überwacht werden müssen als schon allgemein üblich. • Warum kann Sie die Notwendigkeit des Datenschutzes zu einem erhöhten Schwund an Probanden führen? • In einem kleinen Betrieb untersuchen Sie mittels Persönlichkeitsfragebögen die Führungspersönlichkeiten von sieben Abteilungsleitern. Den Teilnehmenden haben Sie Anonymität bei der Datenauswertung zugesagt. Was muss bei der Darstellung der Ergebnisse beachtet werden? Thema 13: Praktische Probleme bei der Durchführung von randomisierten Experimenten Lehrziele: - - • • • Treatmentimplementierung Attrition • Schwund • Verschleiß Von Probanden Treatmentimplementierung / Treatmentrealisierung In der psychologischen Forschung werden Probanden / Patienten meist komplexen Treatments / Interventionen zugeordnet. Normalerweise soll dann untersucht werden, ob das Treatment einen Effekt hat. Zur Absicherung der Validität muss allerdings die Realisierung des Treatments immer hinterfragt werden: 101 - Erhalten alle Probanden ein Treatment? Erhalten die Probanden ein vergleichbares / ähnliches Treatment? Wird das geplante Treatment auch bei der Durchführung realisiert? Treatmentrealisierung Grundlegende Frage: Ist die Treatmentrealisierung korrekt? • Grundlagenforschung - Werden die verwendeten Reizmaterialien korrekt dargeboten? - z.B. Richtige Größe, Farbe, Lautstärke etc. - Ist das Treatment von der jeweiligen Laborsituation abhängig? - z.B. Unterschiedliche Ergebnisse im Labor A und im Labor B - Werden Anweisungen des Versuchsleiters wirklich befolgt? - Werden die Anweisungen zur Reaktion auf verschiedene dargebotene Reize richtig verstanden, beziehungsweise wird richtig reagiert? • Feld-Forschung - z.B. A&O – Psychologie - Werden die neuen Führungskonzepte wirklich korrekt und vollständig umgesetzt? - Erfolgt die Implementierung neuer Entlohnungssysteme wirklich für alle Mitarbeiter? • z.B. Pädagogische Psychologie - Wird die neue Unterrichtsform wirklich in allen Unterrichtsfächern verwendet? - Findet die relevanten Verknüpfungen beispielsweise zwischen dem Einsatz neuer Medien mit den Unterrichtsinhalten statt? (Oder werden neue Tools nur als Add-On ohne Inhalte präsentiert?) - Ist die Treatmentrealisierung korrekt? • z.B. Klinische Forschung - Nehmen die Patienten die Medikamente korrekt ein? - Beantworten Patienten Fragebögen zur richtigen Zeit? - z.B. bei Verlaufsstudien - Werden die therapeutische Anweisungen wirklich befolgt? - z.B. Wird der mit dem Therapeuten abgesprochene Tagesablauf eingehalten? - Werden die Anweisungen des Personals überhaupt richtig verstanden? - z.B. Gibt es eventuell sprachliche Probleme? • Es werden drei Stufen der Treatmentrealisierung unterschieden (hier ein Beispiel aus dem klinischen Kontext): 1. Zustellung / Bereitstellung des Treatments; z.B.: Medikament wird bereitgestellt 2. Entgegennahme des Treatments; z.B.: Medikament wird übergeben 3. Einhaltung des Treatments, z.B. z.B.: Medikament wird nach Anweisung eingenommen Frage: Wie kann die Treatmentrealisierung kontrolliert werden? Zu 1) Kontrolle der Zustellung / Bereitstellung des Treatments • Fragen an die Durchführenden: - Gibt es Manuale / Anleitungen? z.B. Zur Durchführung der jeweiligen Therapieform bei einem bestimmten Krankheitsbild. Aber auch genaue Beschreibungen eines Versuchsablaufes sollten 102 - manualisiert sein. Hierbei sollten Fragen geklärt sein wie: Was wird, wann, wie einem Probanden mitgeteilt? Intensives Training der Therapeuten oder Versuchsleiter vor dem Beginn der Untersuchung. Standardisierung der Treatmentgabe ist bei komplexen Treatments eher schwierig. Eine Supervision, gerade z.B. der Therapeuten ist notwendig, wobei eine Supervision eher bei komplexen Treatments angewendet wird. Ein Austausch unter verschiedenen Versuchsleitern sollte Standard sein. Zu 2) Entgegennahme des Treatments • Weitere Fragen an die Durchführenden: - Gibt es mündliche UND schriftliche Informationen an den Probanden? - Wird genügend Zeit zum Lesen und Überdenken gegeben? - Werden die Probanden zur Teilnahme und zur Einhaltung des Treatments motivieren? Warnung: Motivation ist wichtig, Übermotivation hingegen eher gefährlich für die Validität der Ergebnisse. - Es sollte eine Überprüfung des übermittelten Wissens stattfinden, z.B. durch - einen Wissenstest - Beobachtungen auf physiologischer Ebene - schriftliche oder mündliche Befragung des Probanden zu 3) Einhaltung des Treatments • Weitere Prüffragen: Hat der Patient auch wirklich die Anweisungen des Versuchsleiters / Therapeuten befolgt? Z.B. - Patiententagebuch, kontinuierliche Datenerhebung über mobile Geräte (z.B. Fahrenberg, Leonhart & Foerster, 2002) - Erhebung von Blutparametern zur Überprüfung der Medikamenteneinnahme - Analyse von Körperschweiß zur Überprüfung der Drogenabstinenz aber auch in der experimentellen Forschung: - z.B. - Schaut der Proband an die „richtige“ Stelle auf dem Bildschirm? (Messung der Augenbewegung über Eyetracker) - Sind die erhobenen Reaktionszeiten überhaupt realistisch? (Reaktionen unter 100 ms eher zufällig) - Hat der Proband die Aufgaben wirklich gelesen? (Messung der Bearbeitungszeiten) Häufige Fehler-was alles schief gehen kann Fanden noch zusätzliche Interventionen statt? z.B.: Patienten nehmen an mehreren Experimenten gleichzeitig teil (Große Gefahr, besonders bei klinischen Studien und Studien über längere Zeiträume) Haben die Personen in der Kontrollgruppe nicht doch eine Form eines Treatments erhalten? z.B.: Es kann nicht davon ausgegangen werden, das bei Personen in der Kontrollbedingung „nichts“ passiert ist (bzw. auch Placebo hat eine Wirkung). Auch kann beispielsweise bei Untersuchungen im klinischen Setting eine Vertauschung von der Zuordnung von KG und EG erfolgen. Es können auch unvorhergesehene Dinge passieren, z.B. Therapeuten erweitern „kreativ“ das Treatment, weil sie durch die Studie auf neue Ideen kommen. 103 3 Probleme – 3 Lösungsansätze 1. Das Treatment wird nicht kontinuierlich über den vollständigen Untersuchungszeitraum gegeben. Probanden brechen ab oder müssen aus der Treatmentgruppe genommen werden. Intent-to-Treat-Analysen 2. Das Treatment wird in unterschiedlicher Stärke gegeben, wobei diese unterschiedliche Stärke kein fester Bestandteil des Designs ist. Statistische Analysen unter Berücksichtigung der Treatmentstärke 3. Die Zuordnung zu Treatmentgruppe und Kontrollgruppe ist mit einem bias belastet. instrumental variable analysis (IV-Analysen) Intent-to-Treat-Analyse Einsatz bei randomisiert kontrollierten Studien. Eher im klinischen Kontext. Berechnung nach „ursprünglichen Absicht, wie man behandeln wollte“. Patienten werden in derjenigen Gruppe analysiert, der sie zu Studienbeginn zugeteilt wurden (Interventions oder Kontrollgruppe). Unabhängig davon, ob die Patienten eine andere Behandlung erhielten als ursprünglich geplant (z.B. wegen Patientenwunsch) oder für Verlaufsuntersuchungen verloren gingen. Übertragbarkeit in die Praxis ist sichergestellt. Dabei notwendig: durchgehende Daten, d.h. Pb muss bereit sein, weiter seine Daten zur Verfügung zu stellen Berechnung: 104 1. tatsächliche EG und KG 2. alle Personen der ursprünglichen EG bleiben in der EG, unabhängig von den Aussteigern Vorteile: Gibt die Verhältnissen in der therapeutischen Praxis am Besten wieder. Ein Medikamentenwechsel oder eine schlechte Compliance der Patienten können beispielsweise durch das Treatment bedingt sein. Durch die Randomisierung wurde eine Vergleichbarkeit der Gruppen (bei Studienstart) gewährleistet. Somit konnte der Einfluss des Treatment besser bewertet werden. Analysen unter Berücksichtigung der Treatmentstärke Anwendung im Rahmen eines quasi-experimentellen Design Erfasst wird: - Ob ein Treatment in Anspruch genommen wurde oder nicht (Merkmal „Treatment erhalten“ ja / nein (1 / 0) ) oder wie stark das Treatment (0, 1 ,2, … n Therapiesitzungen oder Medikamentendosis) in Anspruch genommen wurde. Wichtig: Bei diesem Design wird dem Probanden die Wahl gelassen, ob und wie stark er das Treatment in Anspruch nehmen will. Die Anspruchnahme des Treatments ergibt die Zugehörigkeit zu einer der Analysegruppen oder geht als Kovariate in die statistische Auswertung ein. Vorteile: - Treatment wird nicht „aufgezwungen“, sondern freiwillig in Anspruch genommen - „Geeignete“ Teilnehmer suchen sich das „geeignete“ Treatment aus. Nachteile: - Kausale Zusammenhänge sind schwieriger interpretierbar(Selbstselektion) - Messung der Treatmentstärke / Anzahl der Treatments ist oft messfehlerbehaftet. instrumental variable analysis Statistische Analysemethode, welche primär in den Wirtschaftswissenschaften angewendet wird. Anwendung: Falls das Treatment nicht zuteilbar durch Randomisierung ist - Beispiel: aus ethischen Gründen Lösungsvorschlag: IV-Analyse - Neben dem Kriterium Y und dem Prädiktor D wurde eine weitere randomisierte (randomisierbare) Variable Z (instrument) hinzugefügt, so dass ein vorhandener bias in der statistischen Analyse berücksichtigt werden kann. Beispiel: Anreiz-Design Fragestellung: Wie beeinflusst das Verhalten D (Schulbesuch, ja/nein) das Kriterium Y (Einkommen mit 30 Jahren)? Probleme: - Schulbesuch (ja/nein) aus ethischen Gründen nicht randomisierbar. - Probanden mit Schulbesuch und Probanden ohne Schulbesuch werden sich in diversen Variablen signifikant unterscheiden. Lösungsansatz: Randomisierte Zuteilung eines Anreizes Z (Subvention des Schulbesuchs). Hierbei handelt es sich um eine instrumental variable. Hierdurch soll der Einfluss des Schulbesuchs (D) auf das Einkommen (Y) besser erfasst werden. • Beispiel: Anreiz-Design 105 Gibt es einen Effekt von D (Schulbesuch) auf Y (Einkommen)? Zwei Überlegungen: - Änderung von Y (Einkommen) durch Z (instrument,Subvention) Y = E(Y |Z = 1) − E(Y |Z = 0) - Änderung von D (Schulbesuch) durch Z (Subvention) D = E(D|Z = 1) − E(D|Z = 0) Wenn Z (Subvention) keinen direkten Einfluss auf Y (Einkommen) hat, entspricht Y dem Effekt einer Änderung von D um D Einheiten. Folge: Einfache lineare Regression: Y = b0 + b1·D + e Aber: Was ist, wenn es einen bias gibt? > Bias: Korrelation von D und e (verzerrte Schätzung) Verzerrte Schätzung • Normalerweise gilt in der Regressionsanalyse: - Kein Zusammenhang zwischen Prädiktor und Vorhersagefehler beim Kriterium - Durch Störvariablen oder Messfehler kann es aber zu einer Verzerrung kommen. - Diese Verzerrung kann durch eine Korrelation zwischen Prädiktor und Vorhersagefehler erfasst werden. - Dies ist ein Hinweis auf eine inkonsistente Schätzung (bias). - Lösungsansatz: Berücksichtigung einer instrumental variablen • Voraussetzungen: - Korrelation mit dem Prädiktor - keine „direkte“ Korrelation zwischen instrument variable und Kriterium (nur eine vermittelte Korrelation über den Prädiktor, Mediator) - keine Korrelation mit dem Vorhersagefehler - kein Bestandteil der eigentlichen Regressionsgleichung 106 107 Fazit instrumental variable analysis Durch die IV-Analyse ist eine bessere Schätzung der wahren Effekte möglich. Allerdings kann diese Schätzung nur durchgeführt werden, wenn ein Instrument, eine zufällig verteilte weitere Variable, vorliegt, welche nicht mit dem Vorhersagefehler korreliert (kein bias). Attrition attrition (Schwund, Verlust, Verschleiß?) zwei Fragestellungen: - Wie kann der Schwund an Probanden verhindert werden? - Wie kann statistisch damit umgegangen werden? (wurde schon an einem vorherigen Termin besprocheninterne Validität) Vermeidung von Attrition Wie kann Schwund vermieden werden? Unterscheidung zwischen vermeidbaren und nichtvermeidbaren Ursachen vermeidbar: z.B.: das Treatment oder die Untersuchungsprozedur erzeugt eine ablehnende Haltung bei den Probanden -> Abbruch des Experiments nicht-vermeidbar: z.B.: Tod von Versuchspersonen / Naturkatastrophen 108 Tun Sie (fast) alles, damit Sie Ihre Versuchspersonen „bei Laune“ und „bei der Stange“ halten. Wichtig gerade bei Studien mit mehreren Messzeitpunkten (eventuell über mehrere Jahre hinweg)! Pflege der Datenbank mit den aktuellen Adressen aller Teilnehmenden, sowie intensive Pflege der Versuchspersonen selbst. Prüfungsliteratur macht eine Liste von Vorschlägen zur Vermeidung von attrition (siehe spätere Folien), aber ... Beachten Sie den Datenschutz! z.B.: Keine Befragung von Nachbarn, zu indiskretes Detektivspielen etc. Differenzieren Sie bei der Datenerhebung zwischen dem einfachen „Erinnern“ und massivem „Bedrängen / Belästigen“ der Probanden. Besser: Verdeutlichen Sie den Teilnehmenden zu Beginn der Studie die wissenschaftliche Relevanz und Notwendigkeit von vollständigen Daten. Motivieren Sie und drohen Sie nicht z.B. mit der Drohung das Probandengelder zurückgezahlt werden müssen. Welche Daten sollten erhoben werden? Name, Adresse, Telefon, E-Mail, Arbeitsplatz / Universität, Umzugspläne, Daten von verwandten Personen, Daten aus dem Freundeskreis, Daten von Ärzten / Sozialarbeitern / Betreuern des Arbeitsamtes (auch zur Überprüfung der Richtigkeit der Daten) Wie können Versuchspersonen bestmöglich erfassbar bleiben? Bitte an die Probanden um Mitteilung einer Adressänderung (Frankierte Postkarte) Erste Rückfragen schon 2-3 Wochen nach dem ersten Kontakt Rückfragen immer zu ähnlichen Zeitpunkten innerhalb der Woche (z.B. immer am Montagvormittag) Kontaktadresse mit relevanten Informationen zur Studie an die Probanden ausgeben Bezahlung der Kosten für ein anstehendes Interview versprechen (z.B. Fahrtkosten) Geburtstagsglückwünsche übermitteln (kommt die Post an)? Falls Personen nicht mehr erreichbar sind: Nachfragen bei Freunden oder Bekannten Nachfragen bei der Post, ob es eine Adressänderung gab Nachfragen beim Telefonanbieter (Datenschutz?) Alumni-Vereinigungen / Organisationen für Klassentreffen, … Fragen Sie in der Nachbarschaft der ehemaligen Wohnung nach (oder dem Arbeitsplatz oder bei Geschäften und Gaststätten) Probanden, welche früher schon mehrmalige Erinnerungshilfen gebraucht haben, vor einem anstehenden Termin extra erinnern gute Pflege der Personen während der Untersuchung (Kaffee, Kuchen etc.) Informieren Sie die Probanden zu Beginn der Studie über die kommenden Untersuchungstermine ausreichend Vermeidung von Attrition 109 Vollständige Daten sind wichtig, auch falls das Treatment nicht konsequent umgesetzt wurde (intention-to-treat-Analysen). Vermeiden Sie unnötige zeitliche Verzögerungen im Ablauf der Studie. Verhindern Sie alles, was Probanden zum Studienabbruch bewegt. Falls inhaltlich möglich, geben Sie einen kurzen verständlichen „Zwischenbericht“ an die Teilnehmenden, so dass diese die wissenschaftliche Bedeutung der Studie besser verstehen und (noch) besser motiviert werden. Analyse von Schwund Deskriptive Analysen - Fehlende Werte über alle Probanden hinweg? - Explorative Datenanalyse mit dem Faktor Treatmentgruppe / Kontrollgruppe - Gibt es relevante Unterschiede zwischen completern und non-completern? - Sind diese Unterschiede in Treatmentgruppe und Kontrollgruppe vergleichbar? - Sind die Probanden mit vollständigen Daten in Treatmentgruppe und Kontrollgruppe vergleichbar? Identifizierung von Mustern - Gibt es verschiedene Gruppen von Probanden mit unterschiedlichen Mustern von fehlenden Werten? (latent class analysis) - Gibt es ein unterschiedliches Muster bei verschiedenen Messistrumente? z.B. Mehr fehlende Werte bei einem bestimmten Fragebogen? - Gibt es eine ausreichend große Untergruppe von Personen, so dass das experimentelle Design noch als gültig betrachtet werden kann? Lösungsansätze: - Imputation von fehlenden Werten - Statistische Modellierung der Effekte der fehlenden Werte - Berechnung von Effektgrößen mit einer Adjustierung bezüglich der fehlenden Werte - Vergleich zwischen imputierten und nicht-imputierten Daten Prüfungsfragen • Was wird unter einer intention-to-treat-Analyse verstanden? In welchem Kontext sollte diese Anwendung finden? • Was ist eine drop-out-Analyse? Thema14: Meta-Analysen und Reviews Generalisierung der Ergebnisse von mehreren Studien über: - Narrative Interviews - Quantitative Reviews = Meta- Analysen Probleme bei Meta-Analysen 110 Einleitung Narrative Reviews und Meta-Analysen befassen sich mit der Zusammenfassung von Studienergebnissen. - Warum ist die Zusammenfassung von Studienergebnissen aus einzelnen Studien notwendig? - Für welche Zielgruppe werden diese Zusammenfassungen erstellt? Warum Meta-Analysen? Exponentiell anwachsende Anzahl von publizierten Primärstudie. Ein einzelner Wissenschaftler kann die „tägliche Flut“ von Detailinformationen nicht überschauen und rezipieren. Im Fachbereich Medizin werden in über 10.000 Fachzeitschriften weltweit jährlich über 2 Millionen Zeitschriftenartikel veröffentlicht (http://www.cochrane.de/deutsch/ccbackg.htm). 5500 Artikel pro Tag, Vier Artikel pro Minute Folge Systematische Übersichtsarbeiten in Form von Reviews oder Meta-Analysen sind notwendig, damit medizinische Entscheidungen im Sinne einer "Evidence Based Medicine" stets auf Basis des aktuellen Wissensstandes getroffen werden. Aber auch für die Grundlagenforschung ist eine Zusammenfassung von wissenschaftlichen Ergebnissen sinnvoll. Zielgruppe für Meta-Analysen: - Praktiker (aktueller Wissensstand) - Lehre / Studierende (Überblick zum aktuellen Wissensstand) - Forscher (neue Hypothesen) Vorteile Meta-Analyse: Unterschiedliche Studien sind in vieler Hinsicht unterschiedlich - Test der Generalisierbarkeit (externe Validität) eines Effekts (Homogenitätstest) - Prüfung der Grenzen (Moderatorvariablen) - Prüfung der Vermittlungshypothesen (Mediatorvariablen) Man nutzt Daten, die bereits publiziert sind 111 Reviews vs. Meta-Analysen Wegen der Darstellung von studienübergreifenden quantitativen Effekten und Effizienzen gelten Meta- Analysen im Vergleich zum qualitativen Review (im Sinne eines Literaturüberblicks) als höherwertig und werden verstärkt angewendet (Cochrane & Silagy, 1999). Seit in den siebziger Jahren erstmalig der Begriff Meta- Analyse für die quantitative Zusammenfassung einzelner Untersuchungsergebnisse verwendet wurde (Glass 1976), findet diese Methodik vermehrt Anwendung. Typen von Meta-Analysen Vier Typen können definiert werden (Blettner et al. 1999): - Typ I: Zusammenfassung von Studien über Reviews - Typ II: Meta-Analysen basierend auf publizierten Studienergebnissen („typische Analyse“) - Typ III: Erfassung der individuellen Rohdaten der integrierten Studien (retrospektiv) - Typ IV: Erfassung der individuellen Rohdaten der integrierten Studien (prospektiv) Narrative Reviews (Typ I): Definition: Beschreibung der existierenden Literatur Ohne Zusammenfassung / Synthese der Studien zu einem Ganzen (im Gegensatz zu Typ II bis IV) Teilweise mehrere hundert Studien zu einer Fragestellung werden deskriptiv dargestellt. Bewertung durch mehrere Reviewer „Grobe“ Einteilung in zwei bzw. drei Kategorien. Nachteile: Es erfolgt keine Zusammenfassung/Synthese der Studien zu einem Ganzen. Hierdurch reduziert sich insbesondere bei vielen Studien der Überblick. Studien können: + = Ergebnisse haben (signifikante Unterschiede in die gewünschte Richtung) 0 = Ergebnisse haben (keine signifikanten Unterschiede) - = Ergebnisse haben (signifikante Unterschiede entgegen der erwarteten Richtung) Auswertung über box score oder vote counting: - Einfaches „Abzählen“ der Studien, welche zu den drei Kategorien gehören. - Teilweise wird hierbei auch die negative und die neutrale Kategorie zusammengefasst. - Über das Ergebnis kann ein χ2-Test ermittelt werden. Box score kann Hinweise auf potentielle Moderatorvariablen geben (durch einen Vergleich der erfolgreichen mit den nicht erfolgreichen Studien). Vorteil: - Hilfestellung bei der Generierung neuer Hypothesen /Theoriebildung / - konzentrierter Literatur- Überblick zu einem Thema - Inhaltliche Theoretische Argumentation im Vordergrund Nachteile / Kritik: Werden viele Studien integriert, kann leicht die Übersicht verloren gehen, da unterschiedliche Studien mit verschiedenen potentiellen Moderatorvariablen 112 - Überforderung bei großen Zahlen von Moderatorvariablen und Studien Einzelne Studien gehen in der Vielzahl der Studien „unter“. Bei der Analyse keine systematische Gewichtung nach: - der Stichprobengröße - der Größe der Mittelwertsdifferenz - der Effektgrößen - dem erzielten Signifikanzniveau (p<.0001 versus p=.49) Ungenaue Zusammenfassung der Signifikanzen (Signifikant ja/nein) Zusammensetzung der box counts können sehr heterogen sein, da bei gerichteten Hypothesen nicht zwischen - p = .049 und p < .0001, beziehungsweise zwischen - p = .50 und p = .99 unterschieden wird Die Analyse der Zusammenhänge zwischen abhängigen Variablen und möglichen Moderatorvariablen innerhalb eines Reviews ist relativ komplex (besonders bei vielen Studien). Die Differenzen bei Moderatorvariablen und unabhängigen Variablen variieren in ihrer Größe und können nur schwer als komprimierte Kennwerte zusammengefasst werden. Folge: - „Reine“ narrative Reviews sind eher selten geworden. - Narrative Reviews werden oft mit Meta-Analysen vom Typ II kombiniert (quantitative Reviews). Meta-Analysen (Typ II) Historisches / erste Meta-Analysen: o Roger Cotes (18. Jh.) gewichtete Mittelwerte von Abweichungen bei verschiedenen Astronomen o Sir Karl Pearson: Mittelwerte von Korrelationskoeffizienten (Fishers Z) o Eysenck (1952): Psychotherapie-Erfolgs-Studie o Glass (1976): „erste“ Meta-Analyse (erstmalige Begriffsverwendung) • Definition: - Statistische Aggregation von Ergebnissen aus Studien mit gleicher / ähnlicher Fragestellung - Bessere Schätzung der „wahren“ Effekte durch Auswertung / Zusammenfassung mehrerer Studien - Ermittlung von Konfidenzintervallen über die Studien hinweg - Untergruppenanalysen (Subgruppenanalysen) und Moderatoranalysen sind möglich • Arbeitsschritte: 1) Identifizierung & Präzisierung der Fragestellung, Literaturrecherche 2) Kodierung der Studien 3) Ermittlung der Effektgrößen 4) Analysieren der Meta-Analyse-Daten 5) Interpretation und Präsentation der Ergebnisse zu 1)• Identifizierung & Präzisierung der Fragestellung, Literaturrecherche Bevor mit einer Literaturrecherche begonnen werden kann, muss die Fragestellung explizit gestellt werden. 113 Die Fragestellung kann sehr differenziert oder auch sehr breit gefasst sein (z.B. Wirkt Psychotherapie?). Allerdings kann eine zu breite Fragestellung zu einer „Flut“ von passenden Studien führen. Generell: Um Selektionsbias zu vermeiden, sollten alle durchgeführten Studien erfasst werden Diplomarbeiten, Promotionen, Habilschriften sind oft nur schwer erreichbar. Forschungsberichte, interne Papiere sind oft unter Verschluss institutsintern siehe http://portal.unifreiburg.de/psychologie/forschung/fobe90.html Es werden nicht alle Zeitschriften in medline oder psyndex geführt (nur die „Guten“). Publication bias und file-drawer Problem Deshalb sollte nach Möglichkeit möglichst viel der „grauen Literatur“ erfasst werden. Wie kann „graue Literatur“ erfasst werden? (=Literatur, die nicht über die Datenbanken gefunden werden kann) Bekannte Forscher auf dem jeweiligen Forschungsgebiet anschreiben. Außerhalb der „festgetretenen Pfade“ suchen (z.B. Internet, Tagungen, Fachverbände anschreiben etc.). In diversen Universitätsbibliotheken suchen. Spezielle Kliniken / Zielgruppen anschreiben (nicht nur bezüglich Manuskripten, sondern auch beispielsweise wegen Stations- oder Klinikstatistiken). Zu 2) Kodierung der Studien Zur Erfassung der einzelnen Studien ist ein umfangreiches Kodierschema notwendig. Diese Kodierung muss vor der Datenerhebung entwickelt und getestet sein. Je differenzierter das Schema, desto besser die Meta-Analyse. - Problem Interrater-Reliabilität Psychotherapieforschung Grawe, K., Donati, R. & Bernauer, F. (2001). Psychotherapie im Wandel - Von der Konfession zur Profession. Göttingen: Hogrefe. Grundlegendes Werk der Psychotherapieforschung Grawe et al. (2001) • Wissenschaftlichen Güteprofile je vorhandener wissenschaftlicher Veröffentlichung zu verschiedenen Therapiemethoden (acht einzelne Gütekriterien) 1. Klinische Relevanz 2. Interne Validität 3. Güte und Information 4. Vorsicht bei der Interpretation 5. Reichhaltigkeit der Messung 6. Güte der Auswertung 7. Reichhaltigkeit der Ergebnisse 8. Indikationsrelevanz zu 3)Ermittlung der Effektgrößen Über Effektgrößen wird der gefundene Effekt standardisiert. Hierdurch ist ein Vergleich von Ergebnissen aus verschiedenen Studien trotz unterschiedlicher abhängiger Variablen möglich. Es gibt eine Vielzahl von Effektgrößenmaßen (η2, R2, …) Beispielhaft zwei Formen der Effektgrößenberechnung: 114 - Standardisierte Mittelwertsdifferenzen (d-Maß) - für intervallskalierte Merkmale odds ratio (or) - für dichotome Merkmale d-Maß Einteilungsvorschlag nach Cohen (1988) in kleine (d = 0,2) mittlere (d = 0,5) große Effekte (d = 0,8) Maß ist klar definiert bei zwei Gruppen und einem Messzeitpunkt Wie wird das d-Maß berechnet bei - mehr als zwei Gruppen? - bei abhängigen Stichproben? Praktische Folgen: In einem Artikel wird publiziert: „durch das neue Interventionsprogramm konnte bei einer Gruppe von Psychosomatikpatientinnen (n=43) eine Verbesserung von d = .85 erreicht werden. Somit ergibt sich nach Cohen ein großer Effekt der Behandlungsmaßnahme… Praktische Bedeutung? Wirklich ein großer Effekt? Forderungen beim Berichten des Effektgrößenmaßes d / nach Transparenz Transparente Darstellung aller deskriptiven Kennwerte. Transparente Darstellung der berücksichtigten Streuung. Bewertung der ermittelten Effektgröße durch einen Vergleich mit Effektgrößen aus ähnlichen Populationen / Studien / Interventionen und nicht mit dem Bewertungsvorschlag von Cohen. odds ratio Die Odds Ratio beschreiben das Verhältnis zweier Odds (Chancen) zueinander. Da die Odds Ratio Verhältnisse beschreibt, bedeutet eine Odds Ratio von 1 „kein Unterschied“. Ein Wert größer als 1 beschreibt ein „Risiko“ für ein Ereignis. Ein Wert kleiner als 1 beschreibt eine „Schutzfunktion der Gruppenzugehörigkeit“ vor einem Ereignis. 115 Zu 4) Analysieren der Meta-Analyse-Daten: Generell werden die Daten von Meta-Analysen analog zur „Standardstatistik“ ausgewertet Berücksichtigt werden sollte allerdings: - die verschiedenen Stichprobengrößen Gewichtung bei Aggregieren - Homogenitätstests für die Effektgrößen Gegebenenfall gefolgt von Moderatoranalysen - hierarchische Strukturen in den Daten - Abhängigkeiten der Effektgrößen innerhalb der Studien bei mehreren berücksichtigten abhängigien Variablen - publication bias zu 5) Interpretation und Präsentation der Ergebnisse Auch die Zusammenhänge in den Daten einer Meta-Analyse sind nur Korrelationen. Deshalb: Vorsicht bei Aussagen über Kausalität! Gefahr der „Überinterpretation“ der Daten (da große Datengrundlage „Sicherheit“ bei der Interpretation vorspiegelt). Es gibt eine lange Liste von methodischen Problemen von Meta-Analysen (siehe folgende Folien) Validitätsbedrohungen Meta-Analyse 1. Bedrohungen von Schlussfolgerungen über einen korrelativen Zusammenhang von Treatment und abhängiger Variablen o Effektstärken größer Null oder nicht? 2. Bedrohung der Schlussfolgerung hinsichtlich Kausalität 3. Bedrohung der Konstruktvalidität 4. Bedrohung der externen Validität Bedrohung der Beurteilung eines Zusammenhangs 1. Mangelnde Reliabilität in den Primärstudien Die Verwendung von nicht- reliablen Messinstrumenten kann die ermittelten Korrekturfaktoren sind möglich, aber es müssen die Reliabilitätskennwerte vorliegen. Problem: Reliabilität der Messinstrumente wird oft nicht in den Primärstudien berichtet bei Standardverfahren kann dies allerdings über die Testmanualen in Erfahrung gebracht werden 116 2. restriction of range in den Primärstudien Reduktion der Effektgrößen durch Decken- Bodeneffekte/ Varianzeinschränkungen in der abhängigen Variablen Korrektur ist möglich, falls die Populationsvarianzen bekannt sind. Fehlende Effektgrößen Angaben in den Primärstudien nicht-signifikante Ergebnisse ungenau angegeben werden (z.B. kein p-Wert). abhängige Variablen erwähnt, aber keine statistischen Ergebnisse angegeben werden. Lösung: Kontaktaufnahme mit den Autoren des jeweiligen Manuskripts (und bessere Standards bei den Zeitschriften). 4. Unreliable Kodierung der Studien Bei der Durchführung der Meta-Analyse werden Studien meist von verschiedenen Reviewern nach verschiedenen Kriterien beurteilt (Relevanz zum Thema, methodische Qualität, Qualität der verwendeten Instrumente etc.). Die Bewertung der Studien kann allerdings bei unterschiedlichen Reviewern differieren. Lösungsmöglichkeiten: o Klare Aufzeichnung der Kodierung o Training der Reviewer o Kodierung über eine Vielzahl von Items o Bewertung einer Studie durch mehrere Reviewern o Im Zweifelsfall Rückfragen an die Autoren 5. capitalizing of chance Erhöhtes Risiko bei Meta-Analysen mit vielen Studien und vielen potentiellen Prädiktoren. Eine große Anzahl von Tests erhöht die Gefahr der capitalization of chance. Lösungen: Bonferroni-Korrektur multivariate Analysen zielgerichtete Analyse von nur einigen wenigen Hypothesen Bias in der Auswahl von Effekten für die Meta-Analyse kann entstehen, wenn der Forschende die vorhandenen Effektgrößen nicht vollständig in die Meta-Analyse eingehen lässt (z.B. aus inhaltlichen Gründen, mangelnde Relevanz für die Kernfragestellung der Meta-Analyse, etc.). Unbeabsichtigt können hierbei eher die „gewünschten“ Ergebnisse in die Studie eingehen, während die „unerwünschten“ Studien eher als irrelevant betrachtet werden. 7.Publication Bias/file-drawer Problem Publikationsverzerrungen, sogenanntes File-drawer-Problem (Tendenz bei Autoren und Herausgebern, erwartungskonforme Studien bevorzugt zu veröffentlichen). Lösungsansätze: - Vermehrte Anstrengungen, unpublizierte Studien mit in die Meta-Analyse einzubeziehen (graue Literatur, z.B. Diplomarbeiten, Promotionen). - Vergleich der Effektgrößen in publizierten und nicht-publizierten Studien. - Berücksichtigung des bias bei der Darstellung der Ergebnisse der Meta-Analyse. 117 8.Bias bei der Berechnung der Effektgrößen Durch mangelhafte Dokumentation beziehungsweise unzulängliche Kodierung der Studienmerkmale fehlen oft wichtige Kennwerte zur Ermittlung der Effektgrößen. Verschiedene Methoden zum Umgang mit diesen fehlenden Werten werden in der aktuellen Literatur diskutiert. Geprüft werden sollte, ob diese Methoden zu differierenden Ergebnissen kommen. 9.Ermittelte Effektgrößen sind statistisch abhängig Statistische Unabhängigkeit ist nicht gegeben, wenn: - Verschiedene ES in einer analogen Gruppe mit ähnlichen Variablen ermittelt werden. - Verschiedene ES verschiedene Interventionsgruppen mit einer einzigen Kontrollgruppe vergleichen. - Verschiedene ES in einer Studie für unterschiedliche Stichproben ermittelt werden. - Verschiedene Studien zu einer Thematik von einer Forschergruppe erhoben werden. 10.Fehlende Gewichtung (ES) nach Stichprobengröße Studien mit vielen Probanden sollten stärker bei der Ermittlung von ES berücksichtigt werden. Hierdurch werden die ermittelten ES exakter Besonders relevant, wenn Studien mit sehr unterschiedlichen Stichprobengrößen in der MetaAnalyse berücksichtigt werden sollen. 11.Verwendung von nicht geeigneten Homogenitätstests Ungenaue/ nicht-informative Homogenitätstests Homogenitätstests: o Moderatoranalysen sinnvoll? o Random fixed effects Modell sinnvoll? Bei kleinen Größen der Primärstudien wenig Power Für die meta-analytische Auswertung muss berücksichtigt werden, ob die Streuungen der erhobenen Merkmale zwischen den einzelnen Studien als homogen betrachtet werden können. Allerdings besteht bei Meta-Analysen mit wenigen Studien und geringem Stichprobenumfang in den einzelnen Studien die Gefahr, dass wegen zu geringer Teststärke Varianzheterogenität nicht entdeckt wird. Frage: Sind bei vorliegender Varianzheterogenität die Studienergebnisse wirklich aggregierbar? Lösung: In diesem Fall konservativ eher von Varianzheterogenität ausgehen! 12. Ungerechtfertigter Einsatz des ALM für feste Effekte In den meisten meta-analytischen Auswertungen wird von festen Effekten ausgegangen und im ALM mit festen Effekten gerechnet. Die Voraussetzungen für feste Effekte sind allerdings meistens nicht zu gewährleisten. Lösung: Modelle für feste und zufällige Effekte rechnen und die Ergebnisse vergleichen. 13.Zu geringe statistische Power Dieses Problem tritt eher selten auf. Trotzdem muss bei Meta-Analysen mit wenigen Studien und jeweils geringem Stichprobenumfang die Power des Verfahrens hinterfragt werden. Allerdings liegt im Allgemeinen bei der Durchführung einer Meta-Analyse immer eine relativ starke Power vor! Probleme bei zu feiner Einteilung der Studien nach kodierten Variablen 118 Bedrohungen der Kausalitätsbeurteilung 1.Fehlende randomisierte Zuweisung Problem: o Es gehen Studien mit randomisierter Zuweisung und Studien ohne randomisierte Zuweisung in die Meta-Analyse ein. o Sind diese vergleichbar? Lösung: o Zwei Meta-Analyse (Randomisierte Studien vs. nichtrandomisierte Studien)bzw. Art der Studie (randomisiert oder nicht) als Moderatorvariable kodieren Allerdings müssen genügend Studien vorliegen („kritische Masse“). 2.Schwund in den Primärstudien Probleme mit Schwund von Probanden in den einzelnen Primärstudien (missing data) setzen sich in der Meta-Analyse fort. Robustheitsanalysen Schwundrate (total und differentiell) als Moderator berücksichtigen Generell gilt für die Probleme mit der methodischen Qualität der Primärstudien das Statement: ‚garbage-in, garbage-out‘ o Allgemeiner Vorwurf gegenüber Meta-Analysen. 3.Moderatorvariablen Möglicherweise gibt es Moderatorvariablen, welche die gemessenen Effekte beeinflussen. Probleme: - Moderatorvariablen korrelieren oft hoch mit weiteren Variablen im Design kausale Aussagen schwierig - Der Einfluss mancher konfundierter Variablen kann konstant gehalten werden durch Analysen innerhalb der Studie z.B. Variablen die pro Studie kodiert werden Bedrohung der Konstruktvalidität Mangelnde Repräsentation typischer Konstrukteigenschaften - Bsp. Meta-Analyse zu ethnischen gemischten Schulformen mit Studien, die erst seit höchstens drei Jahren gemischten Unterricht betreiben Kodierte Konstrukte nur durch ein Item repräsentiert (z.B. Güte/ Repräsentativität/Bedrohlichkeit) - Unreliabel, oftmals Interraterreliabiltät gar nicht bestimmt Rater drift Rater bias - Trennung von Effektgrössenberechnung und Kodierung der Moderatorvariablen Zu abstrakte Charakterisierung des Konstrukts z. B. Verhaltenstherapie, wenn tatsächlich alle Studien Verhaltenstherapie im Kontext von Forschungsambulanzen an Psychologischen Instituten betreffen Konfundierung von Konstrukt mit anderen Studiencharkteristika 119 - z.B. Treatment ( Verhaltenstherapie vs. Gesprächspsychotherapie) mit Operatinlisierung der abhängigen Variable) häufiger Verhaltensmaße als Selbstbericht zu Erleben Bedrohungen der externen Validität Personen, Umstände, Behandlungen und abhängige Variablen der Primärstudien sind nicht zufällig gezogen - Sampling bias beschränkt Generalisierbarkeit in unbekannter Weise Eingeschränkte Hetreogenität der Studiencharakteristika - Rigide Auschlusskriterien zugunsten standardisierter Behandlungen, Populationen, abhängiger Variablen Kein Test auf Heterogenität durchgeführt - Illusion der Verallgemeinerbarkeit Zu niedrige Teststärke, um Unterschiede in ES in kleinen Gruppen von Studien zu erkennen. Studienmerkmale werden unreliabel kodiert. • Studien werden nur mit einer Untersuchungsmethode durchgeführt. • Urteile der Rater verändern sich im Laufe der Untersuchung (rater drift). • Da die Ziele der Meta-Analyse transparent sind, sind die Urteile der Rater reaktiv zu den Effekten in den zu beurteilenden Studien. • Die Festlegung des untersuchten Konstrukts hängt mit anderen Konstrukten zusammen (z.B. Reha-Maßnahme = meist stationär). • Untersuchtes Konstrukt hat Einfluss auf diverse Studienmerkmale (z.B. Setting, Messmethoden etc.). • Da kausale Modelle auf der Korrelationsstruktur aufbauen, müssen gerade diese Ergebnisse besonders kritisch betrachtet werden. • Heterogenität der eingeschlossenen Populationen, Treatments, Outcomes, Settings und Messzeitpunkte muss eingeschränkt werden (Apples-and-oranges-Problem, Äpfel-und-BirnenProblem, zu große Unterschiede in den Operationalisierungen). • Zu große Heterogenität bei den ermittelten Effektgrößen erzeugt einen begründeten Zweifel an den Ergebnissen. 3) Meta-Analysen vom Type III und IV • Exaktere und vielfältiger Berechnungen aufgrund der vorliegenden Rohdaten möglich. • Auch sind Analysen in verschiedenen Subgruppen durchführbar. • Eine bessere Schätzung von Populationskennwerten ist möglich. Praktische Frage: Wie ist die Durchführbarkeit solcher Studien? • Erfahrungen aus eigenem Projekt sind eher negativ. • Siehe folgende Folien und: Leonhart, R. & Maurischat, C. (2004). Meta-Analysen auf Primärdatenbasis - Probleme und Lösungsansätze. Zeitschrift für Evaluation, 3, 21-34. Durchführungsprobleme Problembereich: Forschungsethik und Datenschutz •Verweigerung der Daten aus ethischem Bedenken (Nicht- Information der Teilnehmenden) 120 •Verweigerung der Daten aus datenschutzrechtlichen Bedenken Lösungsansätze: •Berücksichtigung von einheitlichen Richtlinien zum Datenschutz •Datenhaltung nur in eindeutig anonymisierte Form •Hinweis auf mögliche Meta-Analysen in der Einverständniserklärung •Veranschaulichung des wissenschaftlichen Erkenntnisgewinns durch die Meta-Analyse •Berücksichtigung der Stichprobengrößen •Berücksichtigung der Anzahl der einbezogenen Studien Problembereich Nutzungsrechte von Forschungsdaten •Datenweitergabe an Ko-Autorenschaft geknüpft •geringer individueller Nutzen für die Mitarbeitenden im Primärprojekt Lösungsansätze: •Richtlinien zur Ko-Autorenschaft •Erstellung von Sammelbänden •Bildung von Forschungsgruppen Problembereich Erreichbarkeit von Verantwortlichen und Zugriff auf Daten •Probleme der Definition aller Verantwortlichen •Probleme beim Erreichen der Verantwortlichen •Schwierigkeiten bei Ortung der Daten •Heterogenität der Datensatzstrukturen Lösungsansätze: •Zentrale Datenbanken mit Projektbeschreibungen •Kopplung von Fördergeldern an Ergebnistransfer •Definition der Verantwortlichen und transparente Verortung der Daten •Dokumentation der Datenverarbeitung in Variablenhandbüchern •Vorgaben bei der Variablenbenennung •Methodische Supervision und Datenkontrolle •Zentrale Datenhaltung o via Internet o beim Förderer Problembereich: Qualität und Plausibilität der erhaltenen Daten •Unvollständiger Einsatz der Instrumente •Zu geringe Stichprobenzahlen •Abweichungen vom ursprünglichen Instrumenten •Unplausible Werte Lösungsansätze: •Vollständiger Einsatz der Instrumente •Kopplung von Fördergeldern an Forschungsziele •Auswertungs- und Kontrollhilfen o für standardisierte Testverfahren o durch methodische Supervision •Datenbanken zur Durchführung und Verwaltung von Befragungen Zusammenfassung • Generalisierung der Ergebnisse von mehreren Studien über 121 �Reviews �Meta-Analysen • Verschiedene Typen von Meta-Analysen • Probleme von Meta-Analysen Mögliche Prüfungsfragen • Wer benutzte erstmals den Begriff der „Meta-Analyse“? • Wie wird beim vote counting vorgegangen? • Welche Literatur wird unter dem Begriff „graue Literatur“ zusammengefasst? • Wie ist das odds ratio definiert? • Bei der (fiktiven) Analyse von Sterbefällen bei Rauchern und Nicht-Rauchern liegt das odds ratio bei 4.32. Wie ist dieser Kennwert zu interpretieren? • Sind die Bewertungsvorschläge des d-Maßes nach Cohen immer sinnvoll? • Berechnung eines odds ratio an einem Beispiel (Einsetzen der Zahlen). • Wie wirkt sich die Verwendung unreliabler Instrumente auf die Höhe der Effektgrößen bei Meta-Analysen aus? • Welches Problem der Meta-Analyse wird mit dem Statement „garbage in – garbage out“ beschrieben? • Ein Psychoanalytiker kritisiert die Studie von Grawe et al. mit dem Satz: „Hier werden Äpfel und Birnen in eine Analyse gepackt“. Was möchte er mit diesem Satz ausdrücken? 122