Randomisierung - Fachschaft Psychologie Freiburg

Werbung
9) Randomisierung / Stratifizierung / Matching
Lehrziele


Randomisierung
o Verschiedene Verfahren und mögliche Probleme
Stratifizierung und Matching
 Warum randomisieren?
Randomisierung: Zuweisung zu einer Bedingung nach Zufall
 Alternative Erklärungsansätze können besser ausgeschlossen werden.
 Die Plausibilität von Validitätsgefährdungen wird reduziert.
 Es ermöglicht unverzerrte Schätzungen mittlerer Treatmenteffekte
<< Kann man sagen, dass man bei randomiseierter Testung die Effekte eher auf das Treatment
zurückführen kann? Ja, das wäre die direkte Folge aus den ersten beiden Stichpunkten.>>

Wodurch wirkt Randomisierung?
 Alternative Ursachen sind mit der Gruppenzugehörigkeit nicht konfundiert
<< Dies ist der zentrale Grund, warum Randomisierung wirkt. Gruppenzugehörigkeit
meint Treatment- oder Kontrollgruppe. Darauf sollte der Effekt eigentlich zurückgeführt
werden, weil es bedeutet, dass z.B. die Verbesserung der Patientenbefindlichkeit durch
das Treatment besser war. Wenn jetzt aber insbesondere die motivierten Patienten in
einem nicht-experimentellen, d.h. nicht-randomisierten Design sich entschließen, an der
Intervention teilzunehmen, könnte der gefundene Effekt auch auf die Patientenmotivation
zurückzuführen sein. Gruppenzugehörigkeit und Motivation sind dann konfundiert, sie
korrelieren.>>
 Validitätsbedrohungen werden nach Zufall auf die Gruppen verteilt
 Die Gruppen sind vor dem Treatment auf allen Variablen gleich verteilt (im Rahmen von
Zufallsschwankungen)
 Der Selektionsprozess ist bekannt und kann modelliert werden
 Fehler und Treatmentbedingungen sind nicht korreliert
 Randomisierung und interne Validität:
Beispiel: Experiment zum Stress: Ohne Randomisierung mögliche Bedrohung der internen
Validität durch externe Stressoren (Scheidung, Umzug)
 Randomisierung erzielt gleichwahrscheinliche Verteilung solcher Einflüsse auf die
Gruppen
 Ist bei Quasi-Experimenten viel unwahrscheinlicher zu garantieren

Randomisierung und dritte Variablen:
 Die Gruppen sind im Rahmen des Zufalls in JEDER Hinsicht gleich!
 Aber: kleine Stichproben
 Prätest trotzdem hilfreich
o Ausdünnung
<<Was meint "Ausdünnung" durch einen Prä-Test?
Ausdünnung (drop-out, experimentelle Mortalität) meint die Tatsache, dass immer
wieder Personen aus der Studie ausscheiden. Wenn man bereits Prä-Tests erhoben
hat, kann man beurteilen, ob der drop-out ist, d.h. ob sich die ausgeschiedenen
Personen (oder allgemein Versuchseinheiten) signifikant von denen unterscheiden,
die drin bleiben.>>
o Erhöht statistische Trennschärfe bei der Auswertung
72
o Effektivität des Treatments gleich auf allen Prätestniveaus?
*Daumen ab N=30 kann man von Vergleichbarkeit sprechen

Zufallsstichprobe und zufällige Zuweisung
 Zufallsstichprobe erhöht Ähnlichkeit von Stichprobe und Population
o Externe Validität
 Zufällige Zuweisung erhöht Ähnlichkeit der verglichenen Gruppen
o Interne Validität

Randomisieren, aber wie?
 Früher Zufallslisten
 Heute Computerprogramme
Probleme:
 Nicht immer ist ein Zufallsgenerator zufällig (z.B. bei SPSS, hier immer den Startwert
verändern oder mehrmals durchführen.)
 Zufallszahlen sind nur bei unendlich vielen Ziehungen ausgeglichen (aber bei welchem
Experiment steht eine unendlich große Stichprobe zur Verfügung?).
Verschiedene Formen der Randomisierung
a) Einfache Randomisierung ( über Liste, z.B. Normalverteilung)
b) Blockrandomisierung
c) Blockrandomisierung mit ungleichen Gruppengrößen
d) Adaptive Randomisierung
e) Randomisierung nach Stratifizierung oder Matching
b) Blockrandomisierung
 Die Randomisierung erfolgt so, dass innerhalb eines Blocks die Anzahl der
Versuchspersonen ausgeglichen ist.
 z.B. Randomisierung in 10er-Blöcken
o In jedem Block müssen 5 Personen der EG und 5 Personen der KG zugeordnet
sein. (Es wird wieder mit Zufallszahlen randomisiert.)
o Vorteil: Auch bei kleinen Stichproben ist das Verhältnis von KG/EG nahe 1.
o Gleiche Zahlen in KG und EG sind wichtig für die statistische Trennschärfe ( 
Wie gut ist das Verfahren, um Unterschied zu finden)
c) Blockrandomisierung mit ungleichen Gruppengrößen
 Das Verfahren der Blockrandomisierung kann auch angewendet werden, damit Gruppen
mit unterschiedlichen Größen erzeugt werden.
 Beispiel: 75% zur EG und 25% zur KG.
 Kein Widerspruch zur Randomisierung, da jeder Proband die gleiche Chance hat, in die
EG zu kommen.
 Dieser Ansatz ist manchmal notwendig, zum Beispiel:
o Wenn das Treatment nur begrenzt verfügbar ist.
o Kontrast zwischen zwei Treatments von Interesse, beide oft mit KG verglichen
kleinere KG sinnvoll
73
d) Adaptive Randomisierung
 Im Laufe einer Studie werden die Zuordnungswahrscheinlichkeiten immer wieder
verändert.
 Kann zum Einsatz kommen, falls die anfängliche Randomisierung zu ungleichen Gruppen
führt.
 Somit wird versucht im Verlauf der Studie dem Unterschied zwischen den Gruppen
entgegenzuwirken.
Vorteil: Vergleichbare Gruppengrößen bei der Beendigung der Studie.
Nachteil: Validitätsgefährdung
 Gruppen sind von der Eingangsreihenfolge her unterschiedlich
zusammengesetzt
Beispiel:
Studienbeginn: Quote 1:1
Nach 6 Monaten EG = 40 / KG = 60 (bei angestrebten 100 Probanden pro Gruppe).
Änderung der Zuordnungsquote.
Bedarf: EG = 60 / KG = 40
-> Quote 3:2
Während der Studie werden neu aufgenommene Probanden nach 3:2 randomisiert  höhere
Wahrscheinlichkeit in die EG zu kommen
Damit die Randomisierung funktioniert:

Nach Möglichkeit externe Randomisierung (fragen Sie einen Kollegen, externe Abteilung,
ein Methodenzentrum / Biometrie).
 Randomisierungslisten erst verwenden, wenn die Eingangsdiagnostik erhoben wurde (und
eine Entscheidung der Teilnahme schon stattfand).
Sonst besteht die Gefahr der bewussten und / oder unbewussten Manipulation.
 Bsp. für unbewusste Manipulation:
 therapeutisches Setting / Depressionsbehandlung
 neue Therapieform
 vor der Zuordnung werden Einschluss- und Ausschlusskriterien überprüft
 Depression muss vorliegen, darf aber nicht zu schwer sein (z.B. Suizidgefahr)

Bsp. für unbewusste Manipulation: Gefahren: Falls der durchführende Therapeut (welcher
von der neuen Therapieform überzeugt ist) von der Zuordnung schon vor der
Eingangsdiagnostik erfahren hat:
- schwere Fälle in der EG werden eher abgewiesen
- leichte Fälle in der KG werden eher abgewiesen
 Lösungsansatz: Verblindung
Verblindung
74

Bei der Eingangsdiagnostik ist die Zuordnung nicht bekannt (z.B. Zuordnung über
verschlossene Umschläge)
Idealfall: Dreifachverblindung
 Einfach: Proband hat keine Kenntnis über Gruppenzugehörigkeit
 Doppelt: Durchführender hat ebenfalls keine Kenntnis über Gruppenzugehörigkeit
(z.B. bei Untersuchungen mit Medikamentengabe)
 Dreifach: Auswertender hat ebenfall keine Kenntnis über Gruppenzugehörigkeit
Stratifizierung
 Stratifiziert Stichprobe = geschichtete Stichprobe
 Bei der stratifizierten Stichprobe greift der Wissenschaftler von vorneherein auf fundiertes
Wissen um die Eigenheiten der Fälle in der Population zurück.
 Es gibt Überlegungen, ob die Population in bestimmte Dimensionen aufgeteilt werden kann,
welche bei der Stichprobenziehung berücksichtigt werden sollen.
 Diese Dimensionen sind abhängig vom Thema der Forschungsarbeit und sollten theoretisch
begründbar sein.
 Am sinnvollsten wenn Stratifizierungsdimension mit abhängiger Variable zusammenhängt
 Oft werden aber einfach die klassischen soziodemographischen Merkmale (Geschlecht, Alter,
Beruf, Bildungsniveau etc.) verwendet.
Vorteil:
 Es werden Gruppen gebildet, die in sich homogen sind. Hingegen gibt es zwischen den
Gruppen möglicherweise maximale Differenzen
 Aus den so gebildeten Gruppen wählt man dann sukzessive die Fälle für die Stichprobe
per Zufall aus, so dass die Stichprobe aus gleich großen Gruppen pro Schicht besteht
So verhindert man z.B. dass per Zufall in EG nur Gymnasiasten und in KG nur Hauptschüler
sind.
 Der Vorteil der stratifizierten Stichprobe gegenüber der reinen Zufallsstichprobe ist, dass
unter Umständen geringere Fallzahlen notwendig sind  reduzierter Forschungsaufwand
 Somit ist die stratifizierte Stichprobe eine besondere Variante der Zufallsstichprobe, bei
der der Forscher sein Vorwissen über den Forschungsbereich bei der Definition der
Stichprobe einsetzt, wobei jedoch alle Fälle der Grundgesamtheit potentiell die gleiche
Chance haben, in die Stichprobe aufgenommen zu werden.
 Somit handelt es sich auch hier um eine Zufallsauswahl.
Matching
Definition: Beim Matching wird für jedes Element der EG in der KG ein „statistischer Zwilling“
gesucht. Dieser sollte in verschiedenen, zuvor definierten Variablen dem Element aus der EG
entsprechen (identisch sein, oder zumindest möglichst ähnlich).
 Probanden werden vor der Gruppenzuordnung zu Paaren zusammengestellt, die auf einer
oder mehreren Matchingvariablen möglichst ähnlich sind
 Aus jedem Paar wird ein Mitglied nach Zufall der KG zugewiesen, das andere der EG
zugewiesen (Analog für mehrere Gruppen)
75




Matchingvariablen sollten mit abhängiger Variablen zusammenhängen z.B.Prätest
Varianz, die auf die Matchingvariable zurückgeht kann aus der Fehlervarianz eliminiert
werden Trennschärfe erhöht
Aber: Einbusse durch Verlust an Freiheitsgraden
Sinnvoll daher nur wenn substantielle Varianz auf Matchingvariable zurückgeht
Randomisierung im Feld


Nachfrage größer als Treatmentverfügbarkeit
o Z.B wenige Therapieplätze
o Randomisierung als faire Zuweisungsmethode
o Bei kurzfristigen wirksamen Treatments: Zeitstichproben <<(=„Zeitstichproben“
meint, formal gesagt, dass es nicht Personen oder Gruppen, sondern Zeitpunkte
sind, die als units den Bedingungen zugeordnet werden. Wenn man etwa 3
kurzzeitig wirkende Medikamente plus zwei Placebotypen vergleichen will,
könnte man einem Patienten über 5 Wochen jede Woche andere Pillen geben. Jede
Woche wäre hier eine Unit, die einem bestimmten Treatment zugewiesen wird.)>>
Wenn Personen keine klare Präferenzen haben

Zusammenfassung
 Randomisierung als Voraussetzung für ein Experiment kann mit verschiedenen Methoden
durchgeführt werden.
 Beachtet werden muss hierbei
o Einhaltung von Quoten
o möglichst hohe Verblindung gegenüber dem Durchführenden.
 Falls relevante Merkmale vor der Durchführung einer Untersuchung bekannt sind, kann
nach diesen Merkmalen stratifiziert werden (geschichtete Stichprobe).
 Matching erlaubt die Bildung von statistischen Zwillingen. Hierbei können verschiedene
Verfahren eingesetzt werden:
o Matching „von Hand“
o Matching per binärer Regression
o Matching über Clusterverfahren

Prüfungsfragen
• Welche Probleme sehen Sie, wenn in einer klinischen Studie mit einer kleinen Stichprobe mit Hilfe eines
Münzwurfs randomisiert wird?
• Was ist eine adaptive Randomisierung und warum wird diese durchgeführt?
• Welche Verfahren können beim Matching eingesetzt werden?
• Welches Problem kann auftauchen, wenn ein Matching mit sehr vielen Matchingvariablen durchgeführt
wird?
• Nennen Sie ein Beispiel für ein Experiment, bei dem eine Verblindung unbedingt notwendig ist.
Begründen Sie Ihre Antwort.
• Wann wird von einer Dreifachverblindung gesprochen?
• Welchen Vorteil hat eine Dreifachverblindung gegenüber einer Zweifachverblindung?
• Wie unterscheiden sich externe und interne Randomisierung?
76
10) Experimentelle Designs - Faktorielle Designs
Experimentelle Designs


Randomisierte Zuweisung als die wichtigste Voraussetzung für ein experimentelles Design
Die Zuordnung (der Probanden, der Stimuli etc.) erfolgt zufällig und ist nicht beeinflussbar
(durch den Probanden oder den Versuchsleiter).
Wichtig:
Randomisierte Zuweisung ≠ Zufallsstichprobe!
ABER:
 Eine perfekte randomisierte Zuordnung ist keine Garantie dafür, dass sich nicht doch die
Gruppen bei der Prä-Messung unterscheiden
 IMMER (auch bei experimentellen Designs) auf Unterschiede zwischen den Prä-Werten
prüfen.
 Denn: „Der Zufall hat weder Gedächtnis noch ein Gewissen!“
1)Verschiedene Möglichkeiten ohne Prä-Messung
a) Grundlegendes Vorgehen
R
X
O
R
O
R = random assignment
Design mit Kontrollgruppe
 Arten von KG:
o Keine Behandlung
 Effekt auf molarer Ebene, Treatment als Packet wirksam oder nicht?
o Placebo KG
 Unterschied nur hinsichtlich des Wirkfaktors, sonst alles gleich
o Viele andere Formen der KG in Abhängigkeit der Fragestellung
 between-subjects -Design (die Manipulation wird an verschiedenen Teilnehmern
durchgeführt).
b) Varianten des Designs (1)
R
R
XA
XB
O
O
Zwei Treatments, keine Kontrollgruppe.
z.B. Neues Treatment im Vergleich zu Standardtreatment wenn dieses gut gegen KG abgesichert.
c) Varianten des Designs (2)
77
R
R
R
XA
XBf
O
O
O
Zwei Treatments und eine Kontrollgruppe.




Grundlegendes Problem von Designs ohne Prä-Messung: keine Prä-Messung!
Sind Unterschiede zwischen den Gruppen wirklich mit dem Treatment begründbar?
o Kleine (N) Stichproben
Oder gab es vor dem Treatment schon Unterschiede zwischen den Gruppen?
Bei Ausfall von Personen
o Unterscheiden sich diese von denen die drin bleiben?
o Und gibt es in diesem Zusammenhang Unterschiede zwischen den Gruppen
Zwar kann durch die randomisierte Zuweisung eher davon ausgegangen werden, dass die
Unterschiede im Treatment begründbar sind. Trotzdem kann / muss gezweifelt werden.
2) Verschiedene Möglichkeiten mit Prä-Messung
Basisdesign:
 Prä-Post-Messung mit Kontrollgruppe
R
O1 X O2
R
O1
O2
 Within-subjects Design
Auswertung: Varianzanalyse mit Messwiederholung (within-subject-design)
Vorteile:
- Höhere statistische Power, da teststärkeres Verfahren.
- Höhere Validität, da Unterschiede zum Post-Messzeitpunkt, falls keine Unterschiede zum
Prä-Messzeitpunkt vorlagen, auf das Treatment rückführbar sind.
- Experimentelle Mortalität analysierbar
- Randomisierung auch erst nach Prä-Messung möglich:
O1
R X O2
O1
R
O2
Beispiele:
 Prä-Wert ist Einschlusskriterium für die Studie.
 Anhand des Prä-Wertes soll nach Matching (bedingt) randomisiert zugeordnet werden.
b) Varianten des Designs (1)
R
R

O1
O1
XA
XB
O2
O2
Prä-Post-Messungen bei randomisierter Zuordnung und zwei unterschiedlichen Treatments
ohne Kontrollgruppe
c) Varianten des Designs (2)
R
O1
XA
O2
78
R
R
O1
O1
XB
O2
O2
 Zwei Treatments und eine Kontrollgruppe.
Problem: Bisher kann nur der Einfluss eines Faktors (mit verschiedenen Treatmentstufen)
untersucht werden!
Faktorielle Designs
• Verknüpfung zweier Faktoren ist möglich
R
XA1B1
O1
R
XA1B2
O1
R
XA2B1
O1
R
XA2B2
O1
 2x2 Designs
 Alle möglichen Kombinationen der beiden zweifach gestuften Faktoren sind realisiert.
Vorteile:
 Effizienz (einzelne Experimente für jeden involvierten Faktor aufwendiger)
 Testung von Treatmentkombinationen
 Interaktionseffekte
Beispiel:
Interaktionsformen:
 ordinale Interaktion
 Beide Haupteffekte sind interpretierbar
(global) u. möglicherweise signifikant
 hybride Interaktion
 nur einer der beiden Haupteffekte ist
interpretierbar
 disordinale Interaktion
 keiner der beiden Haupteffekte
interptierbar.
79
Fazit Interaktionen:
 Bei zweifaktorieller Varianzanalyse immer
beide Grafiken zur besseren Interpretation
 Bei vorliegenden signifikanten Interaktionen
sind die Haupteffekt teilweise oder vollständig
schwer zu interpretieren
 Interaktionen sind aber gerade bei
Messwiederholungsdesigns hoch relevant.


Typen von Faktoren
Verschiedene Faktoren können in einem Design berücksichtigt werden:
 Behandlungs- bzw. Treatment-Faktoren
 Versuchsfaktoren
 Blockfaktoren
 Fixed- vs. Random-Faktoren
a) Treatment-Faktoren
Beispiele:
 Experiment zur Frustrations-Aggressions-Hypothese, 2-stufiger Treatment-Faktor Frustration
(Proband wird frustriert / Proband wird nicht frustriert)
 Experiment zum Gedächtnis für Wörter, 3-stufiger Treatment-Faktor Instruktion (Vokale
zählen / einprägen / bildlich vorstellen)
80



Die Faktorstufen bestehen aus unterschiedlichen Reizen, Instruktionen, Behandlungen oder
Situationen.
Die Faktorstufen stellen die vom Versuchsleiter hergestellten Operationalisierungen der
Ausprägungen der unabhängigen Variablen dar.
Die Untersuchungseinheiten werden in einem experimentellen Design den Faktorstufen
zufällig zugewiesen.
 Treatment-Faktoren weisen somit die Merkmale „aktive Manipulation“ und
„Randomisierung“ auf.
 Jedes Experiment hat mindestens einen Treatment-Faktor!
b) Versuchsfaktoren
Beispiele:
 Messwiederholungsfaktoren
 Trial-Faktoren
 within-subjects
 Jede Untersuchungseinheit wird unter allen Stufen des Faktors (wiederholt)
beobachtet.
 Ein Versuchsfaktor führt immer implizit einen Personenfaktor P ein.
 Somit kann ein Mittelwert und eine Streuung (Varianz) pro Person ermittelt und in
der
Analyse berücksichtigt werden.
Beispiel: einfaktorieller Messwiederholungsplan mit 3 Stufen
c) Blockfaktoren
 Untersuchungseinheiten werden nach bestimmten Kriterien zu „Blöcken“
zusammengefasst, die die Stufen des Faktors bilden.
 Blockfaktoren sind quasiexperimentelle Faktoren, da die Zuweisung zu den Faktorstufen
nicht zufällig geschieht, sondern durch bereits bestehende Unterschiede determiniert ist.
 Blockfaktoren dienen zur Realisierung der unabhängigen Variablen in Quasiexperimenten
oder als Kontrollfaktoren in Experimenten. (Stratifizierung??)
 Blockfaktoren, die mit der abhängigen Variablen kovariieren, erhöhen die Power zur
Entdeckung der Effekte anderer interessierender unabhängigen Variablen, da sie Varianz
binden und so die Fehlervarianz verringern.
Beispiele:
 Lebensalter
- z.B. 5-fach gestuft: [0-15), [15-30), [30-45), …
 Bildungsniveau
81
- Anzahl der Bildungsjahre
 Soziale Schicht
 Intelligenz
- IQ in gruppierten Werten
c) Fester vs. zufälliger Faktor
• Fixed- oder fester Faktor:
o Die Faktorstufen sind theoretisch oder empirisch begründete Realisierungen der
unabhängigen Variablen (oder sind Realisierungen einer unabhängigen Variablen mit
wenigen Abstufungen).
• Random- oder zufälliger Faktor:
o Die Faktorstufen stellen eine Zufallsauswahl aus allen denkbaren Faktorstufen dar.
o sollen eine Generalisierung auf die Population der möglichen Faktorstufen
ermöglichen.
• Fixed- und Random-Faktoren werden in der statistischen Theorie unterschiedlich behandelt.
• Im Allgemeinen wird ein Modell mit festen Faktoren ermittelt.


Solomon-Vier-Gruppen-Plan
Bei experimentellen Designs sollte die Vergleichbarkeit (besonders bei kleinen
Stichproben) durch einen Vortest überprüft werden.
• Problem: „Sensibilisierung“ durch Vortest (Reaktivität, Übungseffekte etc.).
• Umgehung der Prätesteffekte durch Solomon-Vier-Gruppen-Plan.
Nachteil hierbei aber: Erhöhter Bedarf an Probanden.
R
R
R
R
O1 X
O1
X
O2
O2
O2
O2
(Gruppe 1)
(Gruppe 2)
(Gruppe 3)
(Gruppe 4)
Vier randomisierte Gruppen erforderlich (höheres N).
Zuwachs in der ersten Gruppe kann begründet werden durch:
o mögliche Treatmenteffekte
o mögliche Prä-Test-Effekte (Testung)
o mögliche zeitgebundene Störvariablen (History)
• Vergleich der Differenz zwischen den Mittelwerten von Gruppe 1 und Gruppe 2 = reiner
Treatmenteffekt („Nettoeffekt“).
• Dieser „Nettoeffekt“ müsste mit der Differenz der Postwerte in Gruppe 3 und 4
übereinstimmen falls es keine Effekt der Prä-Messung gibt. (Kontrolle von Testung und
History)
• Vergleich der Post-Werte von Gruppe 2 und 4 schätzt den Effekt der Prä- Messung ab.
Anmerkung: Solomon-Vier-Gruppen-Plan kann auch in komplexeren faktoriellen Designs
verwendet werden.
Solomon-Vier-Gruppen-Plan – gewünschtes (fiktives) Ergebnis:
R
R
R
O1 X
O1
X
O2
O2
O2
(Gruppe 1)
(Gruppe 2)
(Gruppe 3)
Nettoeffekt: (32-20) – (22-20) = 12 - 2 = 10
Kontrolle über: 30 – 20 = 10
82
Effekt der Prä-Messung: 22 – 20 = 2
(erfassbar über Prä-Post-Differenz in Gruppe 2
oder Differenzen der Post-Werte Gruppe 2 und
R
O2
(Gruppe 4)
Fiktive Mittelwerte zu den zwei Messzeitpunkten:
20
32 (Gruppe 1)
20
22 (Gruppe 2)
30 (Gruppe 3)
20 (Gruppe 4)

•
Hierarchische Pläne
Nur selten werden alle Hypothesen eines mehrfaktoriellen Plans geprüft (bzw. Hypothesen
hierfür aufgestellt).
• Nicht immer werden alle Interaktionseffekte bei mehrfaktoriellen Designs untersucht.
• Trotzdem wird oft der „Luxus“ eines vollständigen faktoriellen Designs gewählt.
Nachteil:
• Bei vielen Stufen und Faktoren
-> hoher Bedarf an Versuchspersonen,
-> hoher zeitlicher und monetärer Aufwand
• Lösung: Hierarchische Pläne
 nur ein Teil der möglichen Kombinationen
wird realisiert
• Beispiel:
Faktor A: Unterrichtsform
Faktor B: verschiedene Schulbücher
Vorteil: weniger VP notwendig
Nachteil: Interaktionseffekte sind dargestellt
b) Dreifaktorielle Pläne
c) Teilhierarchische, faktorielle Pläne
83
 Die vorgegeben hierarchischen Kombinationen der Faktoren A und B werden mit allen
Stufen des Faktors C faktoriell kombiniert.
 Hierarchische Pläne - Zusammenfassung
Vorteil:
Eine geringere Anzahl an Treatmentkombinationen muss realisiert werden. Jede
einzelne Stufe eines Faktors A tritt nur unter jeweils einer Stufe des anderen Faktors B auf.
Voraussetzung ist, dass die Anzahl der Stufen des Faktors B unter allen Stufen des Faktors A
gleich ist.
• Diese muss bei der varianzanalytische Auswertung berücksichtigt werden (siehe z.B.
Werner, 1997).
Nachteil: Interaktion zwischen den Faktoren A und B sind nicht definiert und somit nicht testbar.

Quadratische Pläne
 Untersuchungsschemata mit zwei- oder mehrfaktoriellen Designs, wobei jeder Faktor p
Stufen aufweist
 Bei zwei Faktoren sind somit p2 Untersuchungsgruppen notwendig

Bei zwei Faktoren sind somit p2
Untersuchungsgruppen notwendig.

Allerdings lassen sich mit identischem
Aufwand (identischer Gruppenzahl) auch
dreifaktorielle Designs testen
(über lateinische Quadrate).
Lateinisches Quadrat
84
 Vorteil: Weniger Gruppen -> geringere Gesamtstichprobengröße
 Nachteil: Nur Haupteffekte können getestet werden, da Design nur bezüglich der
Haupteffekte ausbalanciert ist. Interaktion zwischen den Faktoren A und B sind nicht
definiert und somit nicht testbar.
 Haupteffekte können nur interpretiert werden, wenn bei den Interaktionseffekten davon
ausgegangen werden kann, dass diese Interaktionseffekte vernachlässigbar sind
(theoretische Vorannahme).
Griechisch-lateinische Quadrate
 Weitere Anordnung für 4 Faktoren
 Voraussetzung: orthogonale lateinische Quadrate
Frage: Was sind orthogonale lateinische Quadrate (bzw. was sind nichtorthogonale
lateinische Quadrate)?
Orthogonale lateinische Quadrate
Nicht-orthogonale lateinische Quadrate




Orthogonale lateinische Quadrate  jede Kombination kommt gleich häufig vor
Nicht-orthogonale lateinische Quadrate  unterschiedliche Häufigkeiten
Kombination mit orthogonalen lateinischen Quadraten
auch hier gilt:
o Haupteffekte ausbalanciert
o keine Interaktionseffekte vorausgesetzt (und auch nicht überprüfbar)
Griechisch-Lateinische- Quadrate:
85
Vorteil griechisch-lateinischer Quadrate:
weniger (viel weniger) Stichproben
Beispiel: 4 Faktoren, jeweils 4 Stufen
• 44 = 256 Gruppen nach faktoriellem Design
• 16 Gruppen nach griech.-lat.- Quadrat
 Weitere Anwendungsgebiete von lateinischen Quadraten
• Kontrolle der Stimulusreihenfolge
 Darbietung vieler Stimuli im experimentellen Design
 Gefahr von Reihenfolgeneffekten
 Lösungsansatz 1: Permutation der Stimuli
Permutation der Stimuli
 Ausbalancieren durch Permutation
 Nachteil des Ausbalancierens: großer Aufwand
 Wird die abhängige Variable in k verschiedenen
Bedingungen erhoben, so müssen k! verschiedene
Reihenfolgen realisiert werden:
• 2! = 2 3! = 6
• 4! = 24 5! = 120 …
• 10! = 3.628.800
Prüfungsfragen
• Ist die Voraussetzung für eine randomisierte Zuweisung eine Zufallsstichprobe?
• Warum sollte auch bei einer randomisierten Zuweisung nicht auf eine Prä-Messung
verzichtet werden?
• Welche Gefahr besteht, wenn beispielsweise bei der Auswertung von Video-Daten der
Auswertende Kenntnis von der Zugehörigkeit zur Experimental- oder Kontrollgruppe hat?
• Beschreiben Sie ein faktorielles Design mit einem zweifach- und einem dreifach-gestuften
Faktor.
• Interaktionseffekte aus einer Mittelwertstabelle grafisch darstellen und interpretieren.
• Interpretation von Interaktionseffekten bei einem Messwiederholungsdesign.
• Was sind within-subjects- und was betweensubjects- designs? (Vorteile / Nachteile)
• Beschreiben Sie den Solomon-Vier-Gruppen- Plan.
• Beschreiben Sie Vor- und Nachteile von hierarchischen Plänen gegenüber faktoriellen
Plänen.
Thema 11: Das Problem von und der Umgang mit fehlenden Werten
Lehrziele:
Definition von fehlenden Werten
Statistische Folgen von fehlenden Werten
Missing-Data-Diagnose
Missing-Data-Prozess
Verschhiedene Auftretensformen von fehlenden Werten
Umgang mit fehlenden Werten
Klassische Verfahren
Neuere (bessere) Verfahren
Fehlende Werte –Definition
 Fehlende Werte liegen vor, wenn Angaben im Datensatz fehlen, obwohl die entsprechende
Merkmalsausprägungen empirisch vorliegen.
o z.B.: Angabe des Alters, Geschlechts
86

o Aber: Keine fehlenden Werte, falls das jeweilige Merkmal nicht vorliegt (z.B.
Schwangerschaftsmonat bei Männern).
Fehlende Werte sind ein Problem,
o welches im „Forschungsalltag“ häufig auftritt und für Probleme bei der statistischen
Auswertung und Interpretation sorgt, aber welches (zu) wenig diskutiert wird.
Zwei grundsätzliche Problem beim Vorliegen von Missing Data
 Die Effizienz und Power, besonderes bei den multivariaten Verfahren und Analysen im
Messwiederholungsdesign wird im Allgemeinen erheblich beeinträchtigt.
o Es werden oft jene Fälle komplett ausgeschlossen, bei welchen ein fehlender Wert
vorliegt. Dies ist allerdings in der klinischen Forschung häufig der Fall -> starke
Reduktion der Analysestichprobe.
 Es muss mit einer Verzerrung (bias) bei der Identifikation unterliegender Strukturen
gerechnet werden.
o Eventuell führt nur eine bestimmte Subgruppe die Untersuchung bis zum Ende durch, so
dass die Ergebnisse in Richtung der Subgruppe verfälscht werden.
Beispieldatensatz
 Messung der subjektiven Einstellung zur „Versuchsplanung“ zu Beginn und am Ende des
Semesters (fiktiver Datensatz)
 Variablen:
o Alter,
o Geschlecht,
o Einstellung zum Fach „Versuchsplanung“,
o allgemeine Studienmotivation
Fehlende Werte
• Wie wirken sich fehlende Werte auf die
statistischen Analysen aus?
• Welche Folgen hat dies für die Aussagekraft
der Auswertung?
Beispiel: Beim zweiten Messzeitpunkt t2liegen
87
Erster Analyseschritt
 Missing Data-Diagnose:
 Festlegung der Anzahl der fehlenden Werte.
- Je Variable
- Je Person / subject
- Eventuell Ausschluss einzelner Personen oder Variablen.
- Weitere Diagnostik, falls mehr als 5% fehlenden Werte!
 Überprüfung der Zusammenhänge des Fehlens von Werten mit anderen Informationen im
Datensatz.
 Indexvariablen erstellen: Variable liegt vor / liegt nicht vor
 Unterscheiden sich beide Gruppen innerhalb des Merkmals (z.B. zu einem anderen
Messzeitpunkt)?
 Unterscheiden sich beide Gruppe in anderen Merkmalen (z.B. soziodemografische
Variablen)?z.B. soziodemografische Variablen
88
Missing-Data-Prozess
 Die Suche nach „Ursachen“ des Fehlens von Angaben in Datensatz.
 Frage:
- Gibt es Zusammenhänge des Auftretens von fehlenden Werten mit gemessenen und
nicht gemessenen Variablenausprägungen anderer Variablen.
 Problem:
- Teilweise überprüfbar, teilweise nur eine Annahme des Auswertenden.


Definitionen von fehlenden Werten
3 Typen von fehlenden Werten
- Missing Completely at Random (MCAR)
- Missing at Random (MAR)
- Not Missing at Random (NMAR or nonignorable)
a) Missing Completely at Random (MCAR) (idealster Fall)
 Tritt auf, wenn die fehlenden Werte über alle Beobachtungen hinweg zufällig verteilt sind.
 Fälle mit fehlenden Werten unterscheiden sich nicht von Fällen ohne fehlende Werte.
 Ob ein Wert fehlt, steht mit keiner der erhobenen Variablen in Zusammenhang (Keine
Korrelation des Auftretens von fehlenden Werten mit Y selbst und mit einem Prädiktor X).

D.h.:
- Keine Korrelation der fehlenden Wert mit Y selbst -> es kann davon ausgegangen
werden, dass es sich THEORETISCH bei den vollständigen Daten um ein Subsample des
(nicht vorhandenen) Gesamtdatensatzes handelt.
- Mit den Ausprägungen eines Prädiktors X kann das Fehlen von Y nicht vorhergesagt
werden.
89
Beispiel:
Mit den Werten zu t1 kann das Fehlen / NichtFehlen der Variablen zu t2 nicht vorhergesagt
werden. (Keine Korrelation des Wertes zu t1 und
mit dem Fehlen von Werten dieser Variablen zu
t2



)
Die Tatsache, dass man in einer Variable keine Angabe macht, darf jedoch mit dem Fehlen
einer anderen Variablen zusammenhängen.
o z.B.: Wer sein Gehalt nicht angibt, darf auch sein Alter eher nicht angeben.(Korrelation vom
Fehlen der Werte)
Wenn MCAR für alle Variablen vorliegt, ist die Gruppe der Personen mit vollständigen
Variablenangaben ein repräsentatives Subsample aller Personen im Datensatz.
Im „wahren Leben“ meistens zu streng, da es bei einer Vielzahl von Variablen sicherlich eine
signifikanten Zusammenhang gibt.
Missing at Random (MAR)
 Das Auftreten eines fehlenden Wertes in Y kann vollständig durch andere Variablen erklärt
werden.
 Personen mit vollständigen Daten unterscheiden sich von Personen mit unvollständigen
Daten.
 D.h. das Fehlen von Werten kann durch weitere Variablen erklärt werden. (Z.B. Frauen geben
ihr Gewicht nicht an oder Personen mit einer Eigentumswohnung etc.).
 Das Fehlen von Werten kann aber nicht durch Ausprägungen in der Variablen selbst
begründet sein (dies kann aber nicht am Datensatz getestet werden!).
 MAR – Lösungsmöglichkeiten multiple imputation und maximum likelihood.
Nonrandom Missing (NRM)

Ob ein fehlender Wert in der abhängigen Variablen Y auftritt, steht nur in Zusammenhang
mit der Ausprägung von Y selbst.
90




Z.B. Personen mit höherem Gewicht geben dieses nicht an, wobei im Datensatz keine
Variablen zur Vorhersage dieses Fehlens sind. Es muss aber von einer systematischen
Verzerrung ausgegangen werden
Ob ein Wert in Y fehlt, kann durch keine andere Variable im Datensatz vorhergesagt
werden.
Ersetzung schwierig.
Lösungsansätze: selection models und pattern mixture
Folgen des Typs von fehlenden Werten



In Abhängigkeit von den vorliegenden und angenommenen Bedingungen können
verschiedene Ersetzungsverfahren angewendet werden s.
Bei MCAR gibt es die meisten Verfahren.
Vor- und Nachteile dieser Verfahren sollen im Folgenden erläutert werden.
 Klassische Verfahren
a) Listwise deletion:
 Wenn in einer der zu analysierenden Variablen ein Fehlwert vorliegt, so fällt diese Person
aus der Berechnung aller Kennwerte heraus.
b) Pairwise deletion:
 Eine Person wird nur bei Berechnung des Kennwerts (z.B. einer Korrelationen) nicht
berücksichtigt, wenn einer der Werte der direkt betroffenen Variablen nicht vorliegt.
c) Mittelwertersetzung (normalerweise durch Variablenmittelwert):
 Fehlwerte einer Person werden durch den Mittelwert der betreffenden Variablen der
Personen mit vorhandenen Daten ersetzt.
a) Eigenschaften der listwise deletion (fallweiser Ausschluss)
 complete information-Ansatz
 anwendbar bei MCAR, aber
o unter Umständen folgt eine starke Reduktion des effektiven N (besonders bei
vielen Variablen)
o allgemein größerer Standardfehler
o starker Verlust der Teststärke
 Liegen nur fehlende Werte bei den Prädiktoren (multiplen oder logistischen Regression)
vor, ist listwise das robusteste Standardverfahren.
 Unter den Standardverfahren ist ‚listwise‘ das Verfahren, das im Allgemeinen den
geringsten systematischen Fehler verursacht, wenn MCAR vorliegt.
91
b) Eigenschaften der pairwise deletion (paarweiser Ausschluss)
 All-available-Information-Ansatz
 Personen / Fälle gehen in die Berechnung ein, falls bei den jeweils betroffenen Variablen
vollständige Daten vorliegen.
 Problem:
 In die Berechnung jeder Statistik gehen eventuell die Werte einer andere
Substichprobe ein.
 Nur wenn diese „Sub“-Stichproben strukturell vergleichbar sind, ergeben sich keine
Verzerrungen.
• Anwendbar, wenn MCAR vorliegt.
c) Eigenschaft der Mittelwertsersetzung
 Folgen der Ersetzung:
o Vernichtung von Varianz
o Minderung von Korrelationen
Mögliche Ersetzungen
MCAR: paarweise, fallweise, FIML
MAR: FIML
NRM (FIML)
 Weitere Lösungsansätze
regression imputation
 Ermittlung einer Regressionsgerade innerhalb der vollständigen Datensätze
 Vorhersage der fehlenden Werte mittels dieser Regressionsgerade bei den unvollständigen
Datensätzen

Zwischenfazit
 Ersetzung durch Mittelwerte: Zusammenhänge werden unterschätzt.
 Ersetzung durch Regression: Zusammenhänge werden überschätzt (da kein Fehler
modelliert wurde).
 Beide Methoden sind nicht optimal.
Deshalb:
neuere Methoden:
- 1) E(xpectation)-M(aximation)-Algorithmus
92
-
2) Multiple Imputation (mit integriertem EM-Algorithmus)
1) E(xpectation)-M(aximation)- Algorithmus
 Es wird ein Modell generiert, welches
1.) den vorhandenen Beziehungen im Datensatz und
2.) den Beziehungen zu den aufgetretenen Missing-Werten, wenn MAR vorliegt, optimal
gerecht wird.
3.) Zusätzlich wird die Zufallsvariabilität der Daten simuliert.




Expectation-Schritt: Es werden auf Basis der Beziehungen im Datensatz Schätzwerte für
die Missing-Werte generiert. (Entspricht der Regressionsimputation)
Maximation-Schritt: Es werden die Kovarianzmatrix und die Mittelwerte dieser neuen
Matrix berechnet (> Verbesserung der Schätzung)
Diese Schleife wird durchlaufen, bis das Modell sich nicht mehr substantiell verändert bzw.
der iterative Prozess konvergiert.
EM-Algorithmus
(Programm ersetzt Fehler, so dass Zusammenhänge im unvollständigen Datensatz den fehlenen
Werten entspricht)



Der EM-Algorithmus ermittelt eine in sich möglichst widerspruchsfreie Informationsstruktur.
Der EM-Algorithmus führt nicht zu einer trivialen Maximierung von Zusammenhängen.
Alle intervallskalierten Variablen, die in eine Analyse eingehen, sollten auch für die EMImputation genutzt werden.
Software
 Vollversion von SPSS hat den EMAlgorithmus ab Version 14 integriert
 freie Software: NORM von Schaefer
2) Multiple Imputation
 Mehrfache Ersetzung (=Imputation) von fehlenden Werten durch m > 1 plausible Werte
 Erweiterung von einfachen Imputationsmethoden (z.B. Mittelwert, Regression,...)
 MI als state of the art-Methode zur Behandlung von fehlenden Werten (neben
maximum-likelihood-Methode) (vgl. Schafer & Graham, 2002)
Vorteile von MI:
 Nutzung der verfügbaren Information in beobachteten Daten
 Komfortable Auswertung von vollständigen Datensätzen möglich
93
 universeller Einsatz für verschiedenste Fragestellungen möglich
 Berücksichtigung der Unsicherheit aufgrund von fehlenden Werten
Vorteil:
 Berechnung statistischer Parameter (Punktschätzer und ihre Standardfehler) mit Hilfe von
Standard-Statistik-Software (SPSS, SAS,..)
 Beispiele: Mittelwerte, Regressionskoeffizienten, Kovarianzen und Korrelationen, ...
 Berechnung der zugehörigen Standardfehler (SE) notwendig
 MI Punktschätzer: Berechnung des arithmetischen Mittels der m Statistiken
(z.B.Mittelwerte) aus m imputierten Datensätzen
 Varianz (gesamt) = Varianz (innerhalb der m Datensätze) + Varianz (zwischen den m
Datensätzen)
 Berechnung von weiteren Statistiken, z. B. Freiheitsgrade, t-Werte, p-Werte,
Konfidenzintervalle (95%)

Zusammenfassung zur Analyse fehlender Werte
 Bei Planung der Datenerhebung sollten möglichst aufschlussreiche Kovariaten
berücksichtigt werden (systematische Erzeugung von MAR)
 Kodierung unterschiedlicher Arten von Missings (Erhebungsprobleme,
Antwortverweigerung, keine logische Antwort möglich)
 Bei mehr als 5% Missings pro Variable sollte immer eine MD-Diagnostik durchgeführt
werden.
 Oft können durch Eliminierung weniger Fälle oder weniger Variablen wesentlich stabilere
Strukturen gefunden werden.
 Indexbildung und Verwendung alternativer hochkorrelierter, aber vollständiger Variablen.
 Auch wenn keine Ersetzung durchgeführt wird: Charakterisierung von MD im Kontrast
zu Respondern wichtig (Drop-out-Analyse).
 MD-Gruppe als unabhängige Variable in das Design aufnehmen.
 Unter den verfügbaren Alternativen zum Umgang mit MD sind EM-Imputation und
Multiple Imputation an die schwächsten Voraussetzungen (MAR) geknüpft und
ermöglichen höchstmögliche Teststärke.
 Parallele Angabe von Ergebnissen für Originalmatrix und für Matrix mit imputierten
Werten ist am aufschlussreichsten.
Abschließend:
 Fehlende Werte stellen immer ein Problem dar:
“The only really good solution to the missing data problem is not to have any.” (Allison,
2001)
Prüfungsfragen
• Probleme / Folgen von fehlenden Werten, besonders bei multivariaten Verfahren
94
aufzeigen.
• Einfache Lösungsansätze diskutieren.
• Folgen „schlechter Lösungsansätze“
• Das Wissen, dass es bessere Lösungen gibt (nicht unbedingt, wie diese im
kleinsten Detail funktionieren).
Thema 12: Praktische Probleme bei der Durchführung
Lehrziele:
• Ethik und Recht
• Patientenrekrutierung
• Probleme von Randomisierung
 Ethische und rechtliche Grundlagen von Experimenten
 Untersuchungen an Menschen
• Kritische Punkte:
• Verweigerung eines möglicherweise wirksamen Treatments (bei der Kontrollgruppe)
• Randomisierte Zuweisung vs. Zuweisung nach Bedarf
• Abbruch eines Experiments
• Rechtliche Probleme / Einschränkungen
• Generell gilt hier: Voraussetzungen müssen immer überprüft werden, oft ist eine Hilfestellung
durch Externe (z. B. Ethikkommission) notwendig, bzw. wird eine externes Gutachten
vorausgesetzt.
 Ethik bei wissenschaftlichen Experimenten
Historischer Hintergrund:
- „Experimente“ in der Zeit des Nationalsozialismus
- „Wissenschaftliche Forschung“ an Menschen
Meist durchgeführt in Konzentrationslagern:
• Ärzte wie
• Josef Mengele (KZ Auschwitz), Robert Ritter (KZ Buchenwald)
• „Medizinische Experimente“, welche meist zu einem qualvollen Tod führten
• Fleckfieber, Salzwasserversuche, TBC Erregern, Beifügen von
Brandbombenverletzungen
Klassische Experimente:
• Auch bei klassischen Experimenten wurden manchmal ethische Grundsätze verletzt.
• Beispiel: John B. Watson („Albert“ oder „der kleine Albert“ genannt)
- Watson berichtet nichts über eine Desensibilisierung des Jungen nach Ende des
Experiments.
-
Es besteht sogar der Verdacht, dass er sich den Jungen ohne das Wissen der Mutter
„ausgeliehen“ hat. (Das Experiment fand in einem Krankenhaus statt. Der Grad der Unkenntni
der Mutter wird in der Literatur diskutiert. Sicherlich wurde sie nicht vollständig über alle
möglichen Folgen etc. aufgeklärt.)
- Nach dem Experiment haben Mutter und Kind das Krankenhaus verlassen, ohne dass es zu einer
weiteren Aufklärung der Mutter kam.
• Ob Watson das Kind nicht desensibilisieren konnte oder wollte ist nicht bekannt.
 Ethische Richtlinien und Prinzipien
• Respekt gegenüber der Versuchsperson
95
•
Der Proband hat das Recht zu entscheiden, ob er an einer Studie teilnehmen will
(informed consent) oder nicht (er hat auch das Recht, jederzeit ein Experiment
abzubrechen).
• Falls Personen diese Entscheidung nicht selbst treffen können, besteht eine besondere
Sorgfaltspflicht (z.B. Kinder etc.).
• Nutzen-Schaden-Relation
• Zu erwartender Nutzen und zu erwartender Schaden werden in ein Verhältnis gesetzt.
Generell wird davon ausgegangen, dass ein
- maximaler Nutzen eines Experiments bei
- einem minimalem Schaden durch das Experiment zu erwarten ist.
• Wird ein hoher Nutzen erwartet, kann auch das Risiko eines geringen Schadens im Kauf
genommen werden.
• Wird nur ein geringer Nutzen erwartet, darf keine (oder kaum) die Gefahr eines Schadens
vorliegen.
Gerechtigkeit
• Fairness bei der Verteilung des Treatments auf die Versuchspersonen.
• Keine Benachteiligung bestimmter Gruppen
o z.B. Frauen, bestimmte soziale Schichten, bestimmte Patientengruppen
• Versuchspersonen, denen aus versuchsplanerischen Gründen ein effektives Treatment
vorenthalten wurde, müssen auf andere Art „entlohnt“ werden,
o z.B. durch die Weitergabe von Informationen, bevorzugte Behandlung an anderer
Stelle etc.
Informed Consent
• Versuche werden nur mit Probanden durchgeführt, welche vor der Durchführung eines
Experimentes schriftlich informiert wurden und sich schriftlich einverstanden erklärt haben.
• Informationen zum informed consent beispielsweise unter:
http://www.hhs.gov/ohrp/humansubjects/guidance/45cfr46.htm
Inhalte:
(1) Zweck, Dauer, Verfahren.. > mögliche Täuschungen müssen von der VP abgesegnet sein,
d.h. ich muss ggffs. Die VP informieren, dass sie evtl. getäuscht wird und diese muss
damit einverstanden sein
(2) Vorhersehbare Risiken
(3) Nutzen für die VP und für andere
(4) Hinweis auf Alternativen
(5) Datenschutz
(6) Größeres als ein minimales Risiko vorhanden? Wer haftet? Wer ist Ansprechpartner?
(7) Wer ist Ansprechpartner für auftretende Fragen?
(8) Freiwilligkeit der Teilnahme: es darf kein Nachteil entstehen, wenn Studie abgebrochen
wird
Informed Consent –zusätzliche Inhalte
1) Gefahren bei Vorliegen einer möglichen Schwangerschaft
2) VL kann Exp. Jederzeit beenden (wenn VP so im Exp. Drin sind, dass sie sich
selbst gefährden)
3) Übernahme zusätzlicher Kosten
4) Konsequenzen eines Rücktrittes (z.B. nicht wieder zurückkehren in die EG)
5) Neuere Forschung
96
6) Anzahl der VP > dadurch Hinweis zum Datenschutz
• Besondere Vorgaben bei der Durchführung von Experimenten mit
• schwangeren Frauen,
• Gefängnisinsassen und
• Kindern.
• Bei diesen Personengruppen besteht einerseits eine erhöhte gesundheitliche Gefährdung (nicht
nur für die Mutter, sonder auch für das Kind) und andererseits ein Abhängigkeitsverhältnis
(Vergünstigungen für Gefängnisinsassen, Abhängigkeit der Kinder von den Eltern).
• Auch sollte die Abhängigkeit beispielsweise im therapeutischen Kontext berücksichtigt werden.
Es dürfen keine nachteile für VP entstehen, die nicht teilnehmen möchten.

Institutional Review Boards (in Kommission: Ärzte, Psychos, Juristen, Statistiker um
Fallzahlen zu beurteilen)
• In Deutschland: Ethikkommissionen
• An jeder Universität, an jedem Klinikum, aber auch bei der DFG (Deutschen
Forschungsgemeinschaft).
• Antragstellung bei jedem Experiment / Forschungsantrag im klinischen Kontext.
• Antragstellung aber auch oft im Bereich der Grundlagenforschung.
• In den USA muss jedes Experiment durch eine Kommission bestätigt werden.

Ethikkommissionen
• Bewertung des Antrags unter verschiedenen Gesichtspunkten:
- informed consent
- wissenschaftliche Qualität
- statistische power
 Hierdurch werden Kosten und Nutzen gegeneinander abgewogen.
•
•
•
Benötigt rein psychologische Forschung auch eine Ethikkommission?
Oder ist dieses Vorgehen nur in der medizinischen Forschung sinnvoll?
Notwendig bei Untersuchungen, bei welchen den untersuchten Personen Risiken
zugemutet werden (z.B. in der psychopharmakologischen und der Schmerz-Forschung),
oder für Studien, in denen die Untersuchten nicht restlos über Ziele und Verfahren der
Studien aufgeklärt werden (können).
• http://www.dgps.de/dgps/kommissionen/ethik/002.php4
Bei nein von Ethikkommission: Forschungsantrag geht nicht durch, Publikation nicht möglich.
• Was wird beurteilt?
1) Angaben zu Rahmenbedingungen des Vorhabens:
• Wer finanziert das Projekt (Forschungsträger)? Verlangt dieser eine EthikStellungnahme? Wann ist mit einer Entscheidung des Forschungsträgers zu rechnen?
• Wie werden Versuchsteilnehmer rekrutiert (z.B. durch Anzeigen, Random-Wahl aus
Listen)?
• Wird die Teilnahme vergütet? Werden Teilnehmern andere Vorteile zugesagt?
• Ist die Freiwilligkeit der Teilnahme gesichert?
Geldgeber: Pharmaindustrie, EU, DFG, Bundesministerium für Forschung/Gesundheit, VW,
private Stiftungen.
97
2) Angaben zum Gegenstand und zum Verfahren des Vorhabens:
• Werden Angaben zu Zielen und Verfahren des Vorhabens gemacht, wie in DFG-Anträgen
üblich?
• Findet eine Charakterisierung der Probanden- Stichprobe statt u.a. durch Altersangaben?
• Werden die Untersuchten körperlich beansprucht (z.B. durch Entnahme von Blut,
Speichel, durch Medikamenten- oder Placebo-Gaben, durch invasive oder nichtinvasive
Messungen)?
3) Angaben zum Gegenstand und zum Verfahren des Vorhabens:
• Werden die Untersuchten mental besonders beansprucht (z.B. durch Tätigkeitsdauer,
aversive Reize, negative Erfahrungen)?
• Geben die Untersuchten persönliche Erfahrungen oder Einstellungen preis?
• Werden die Untersuchten absichtlich unvollständig oder falsch über Untersuchungsziele
oder Verfahren instruiert (z.B. durch manipulierte Rückmeldungen über ProbandenLeistungen)?
4) Angaben über die Informierung der Untersuchten (Informationstext)
• Wird detailliert über Ziele und Verfahren der Untersuchung aufgeklärt, wie auch
• über die Dauer der Untersuchung,
• über Belastungen und Risiken durch spezifische Untersuchungsverfahren,
• über Vergütungen und andere Zusagen an die Probanden und
• über die jederzeitige und folgenlose Rücktrittsmöglichkeit von der Teilnahmebereitschaft?
5) Angaben zum Datenschutz:
• Welche personbezogenen Daten werden erhoben?
• Sind Video- oder Tonaufnahmen oder andere Verhaltens-Registrierungen vorgesehen?
• Wie wird die Anonymisierung erhobener Daten gesichert?
• Wann werden die gespeicherten Daten gelöscht?
• Können Probanden jederzeit die Löschung ihrer Daten verlangen?
6) Angaben zur Erklärung der Bereitschaft
• Nimmt die Bereitschafts-Erklärung eindeutig Bezug auf die Teilnehmer-Information?
• Führt sie vorgesehene Maßnahmen zum Datenschutz auf?
• Bestätigt sie die Freiwilligkeit der Teilnahme an der Untersuchung?
• Erwähnt sie das Recht, die Bereitschaftserklärung zu widerrufen?
 Verweigerung eines möglicherweise effektiven Treatments
• Was kann getan werden, falls eine Verweigerung des Treatments (aus versuchsplanerischer
Sicht) nicht „möglich“ oder sinnvoll ist?
o Dosis-Wirkungs-Designs
o Treatmentangebot für alle Teilnehmenden
o „treatment-on-demand“-Kontrolle
1) Dosis-Wirkungs-Designs
• Treatment wird in verschieden starken Dosierungen (Treatmentstärken) dargeboten
• Bei der statistischen Auswertung wird die Treatmentgruppe mit dem schwächsten
Treatment als „Placebogruppe“ gewertet und dementsprechend analysiert.
• Designs möglich, da Placebo auch schon eine Wirkung auf die Probanden zeigt. Es wird
davon ausgegangen, dass einem höheren Treatment ein höherer Effekt folgt.
98
2) Treatmentangebot für alle Teilnehmenden
• Jeder Teilnehmende erhält eine „Basisintervention“.
• z.B.: Fortbildungsprogramm für alle Interessierten und somit alle Studienteilnehmer +
anschließend zusätzliches Angebot für die randomisiert zugewiesene Treatmentgruppe
• Nachteile:
• (Vermutliche) Abschwächung der Effekte, da nur zusätzliche Effekte der „zusätzlichen“
Intervention gemessen werden können.
• Da nur kleine Effekte durch die „zusätzliche“ Intervention erwartet werden können, ist
zur statistischen Absicherung der Effekte ein größeres N notwendig.
• Aber:
• Design wird häufig gerade in der klinischen Forschung eingesetzt, da hier die Bildung
einer „reinen“ Kontrollgruppe oft nicht möglich ist.
3) „treatment-on-demand“-Kontrolle
• Wünsche / Bedarf der Probanden haben gegenüber der Randomisierung /randomisierten
Zuordnung Priorität
• Durchführung: es werden mehr Probanden der Kontrollgruppe als der EG zugeordnet.
z.B.- Aufteilung 30% EG und 70% KG
• Falls Probanden in der KG einen Bedarf an einer Intervention sehen, dürfen sie sofort in
die EG wechseln.
Beispiel: Klinische Studie über mehrere Monate
Probanden in der Kontrollgruppe erhalten nur eine „Basisversorgung“ mit einer Sitzung im Monat.
Falls die Probanden selbst einen höheren Bedarf sehen, werden sie aus der Kontrollgruppe ausgeschlossen
und erhalten sofort die benötigte Anzahl der Therapiesitzungen.
Nachteile:
• Vergleichbarkeit von KG und EG, da aus der KG eher die schweren Fälle ausscheiden.
• Je nach Zeitpunkt des Wechsels sind die Daten der „Wechsler“ nicht verwertbar (oder
bilden eine weitere Untersuchungsgruppe).
o Es entstehen Untergruppen von Personen, welche
 – früh oder
 – in der Mitte der Studienlaufzeit oder
 – sehr spät
o gewechselt haben. Sind diese Gruppen ähnlich oder muss eine Vielzahl von
Untergruppen gebildet werden (N pro Gruppe = ?)?
Randomisierte Zuweisung und Ethik ?! Ist Randomisierung gerecht?
Fragen:
 Sind die ethischen und die versuchsplanerischen Anforderungen an eine Studie vereinbar?
 Sind aus Sicht der Versuchsplanung gute Studien ethisch kritisch zu sehen?
 Können aus ethischer Sicht „saubere“ Studien aufgrund der Versuchsplanung kritisiert
werden?
Grundsätzlich gilt:
 Der Wunsch nach Randomisierung darf nicht über dem Behandlungsbedarf von Patienten
stehen.
 Durch Randomisierung darf kein Schaden für die Probanden entstehen.

Teillösungen für ethische Bedenken gegen Randomisierung
 Design diskontinuierlicher Regression mit Zuteilung nach Bedarf / Verdienst
99
 Strata nach Bedürftigkeit bilden und in den Strata mit hoher Bedürftigkeit mehr Vpn dem
treatment zuweisen
 Dose-response-Design
 Adaptives Design: Zuweisung zu der im Laufe der zeit erfolgreichsten Bedingungen
erhöhen.
 Randomisierung öffentlich durchführen (Ziehung der Lottozahlen) um Akzeptanz zu
erhöhen


Rechtliche Probleme
Es darf keine Benachteiligung eines Probanden aufgrund von
o Alter,
o Geschlecht,
o Nationalität,
o Religionszugehörigkeit etc. geben
• Wenn dies trotzdem gegeben ist, besteht möglicherweise die Gefahr von Klagen.
• Bsp.: betriebliche Fortbildungsmaßnahmen





Rekrutierung von Teilnehmenden
Fragen, welche vor der Rekrutierung gestellt werden sollten:
Wie kann eine ausreichende Anzahl von Versuchspersonen erreicht werden?
o Ist eine ausreichende statistische Power gegeben?
Wie groß ist der Anteil der Teilnehmenden an der Zielpopulation?
o Wird eventuell nur ein zu kleiner Teil der Gesamtpopulation eingeschlossen?
Ist Stichprobe und Population noch vergleichbar?
o Gibt es eventuell so viele Ausschlusskriterien, dass die resultierende Stichprobe nur
noch eine sehr selektive Teilstichprobe darstellt?
Grundsätzliches Problem: Definition der Zielgruppe
 Welche Gruppe soll in der jeweiligen Studie untersucht werden (und welche nicht)?
 Bsp.:
- suizidgefährdete Patienten
- Definition von Einschluss- und Ausschlusskriterien
 Trotz der Definition von Kriterien:
- Wer nimmt wirklich an einer Studie teil, bzw. wie groß ist der Prozentsatz der
eingeschlossenen Personen an der Population?
 Optimaler Stichprobenumfang!
 Wichtig: Nach der Ermittlung des optimalen Stichprobenumfangs muss ermittelt werden, ob
diese Stichprobe überhaupt erreicht werden kann. (z.B. über Krankenkassendaten,
Stationsstatistiken, etc.).
- Werden beispielsweise wirklich genügend Patienten mit einem entsprechenden
Krankheitsbild in der jeweiligen Einrichtung behandelt?
 Bei dieser Ermittlung schon zu erwartende drop-outs etc. berücksichtigen.
- Je mehr Messzeitpunkte, desto größer ist der zu erwartende drop-out.
 Im Verlaufe einer Studie, der Datenerhebung, immer die Probandengewinnung, die
Stichprobe, beobachten und gegebenenfalls rechtzeitig eingreifen
- Eventuell schon früh eine oder mehrere weitere Kliniken zur zusätzliche. Datenerhebung
gewinnen.
 Was tun, wenn die Stichprobe nicht die benötigte Größe erreicht wird?
100


Setzen einer Deadline, bis zu welcher ein bestimmter Anteil an Probanden erhoben sein
muss.
Überlegungen hierzu möglicherweise schon vor dem Studienstart.
- Machbarkeitsstudien vor eigentlichem Studienbeginn durchführen.
Erwartete Stichprobenumfänge eher konservativ rechnen und vom worst case ausgehen,
anstatt beispielsweise zu positiv von steigenden Patientenzahlen auszugehen.
- Bei der stationären Versorgung gibt es im Moment eher einen rückläufigen Trend. Auch
werden beispielsweise immer wieder Kliniken relativ kurzfristig geschlossen.
Erhöhung der Stichprobe
 Möglichkeiten:
- Dauer der Datenerhebung verlängern
 falls dies möglich ist – längere Datenerhebung = erhöhte Kosten!
 an weiteren Stellen andere Versuchspersonen gewinnen
- z.B. andere Klinike
 Veränderung (Lockerung) der Auswahlkriterien
- kritisch, da die Stichprobe dann eventuell zu heterogen wird
 eher die Treatmentgruppe bei der Zuordnung „bedienen“,
- falls die statistische Power gesichert ist
 Notbremse: Abbruch des Experiments
Prüfungsfragen
• Was wird mit „informed consent“ bezeichnet?
• Sie wollen eine Untersuchung durchführen, bei welcher die Versuchspersonen getäuscht werden. Warum
ist das aus ethischen Gründen kritisch zu sehen? Sind solche Versuche aus ethischer Sicht überhaupt
vertretbar? Was müsste in der Einverständniserklärung erwähnt werden?
• Unter welchen Voraussetzungen kann bei einer Studie ein Risiko für die Probanden akzeptiert werden?
• Nennen Sie eine mögliche Probandengruppe, bei welcher die Rechte der Versuchspersonen noch stärker
überwacht werden müssen als schon allgemein üblich.
• Warum kann Sie die Notwendigkeit des Datenschutzes zu einem erhöhten Schwund an Probanden
führen?
• In einem kleinen Betrieb untersuchen Sie mittels Persönlichkeitsfragebögen die
Führungspersönlichkeiten von sieben Abteilungsleitern.
Den Teilnehmenden haben Sie Anonymität bei der Datenauswertung zugesagt. Was muss bei der
Darstellung der Ergebnisse beachtet werden?
Thema 13: Praktische Probleme bei der Durchführung von randomisierten
Experimenten

Lehrziele:
-
-

•
•
•
Treatmentimplementierung
Attrition
•
Schwund
•
Verschleiß
Von Probanden
Treatmentimplementierung / Treatmentrealisierung
In der psychologischen Forschung werden Probanden / Patienten meist komplexen
Treatments / Interventionen zugeordnet.
Normalerweise soll dann untersucht werden, ob das Treatment einen Effekt hat.
Zur Absicherung der Validität muss allerdings die Realisierung des Treatments immer
hinterfragt werden:
101
-
Erhalten alle Probanden ein Treatment?
Erhalten die Probanden ein vergleichbares / ähnliches Treatment?
Wird das geplante Treatment auch bei der Durchführung realisiert?
 Treatmentrealisierung
Grundlegende Frage: Ist die Treatmentrealisierung korrekt?
• Grundlagenforschung
- Werden die verwendeten Reizmaterialien korrekt dargeboten?
- z.B. Richtige Größe, Farbe, Lautstärke etc.
- Ist das Treatment von der jeweiligen Laborsituation abhängig?
- z.B. Unterschiedliche Ergebnisse im Labor A und im Labor B
- Werden Anweisungen des Versuchsleiters wirklich befolgt?
- Werden die Anweisungen zur Reaktion auf verschiedene dargebotene Reize richtig verstanden,
beziehungsweise wird richtig reagiert?
• Feld-Forschung
- z.B. A&O – Psychologie
- Werden die neuen Führungskonzepte wirklich korrekt und vollständig umgesetzt?
- Erfolgt die Implementierung neuer Entlohnungssysteme wirklich für alle Mitarbeiter?
• z.B. Pädagogische Psychologie
- Wird die neue Unterrichtsform wirklich in allen Unterrichtsfächern verwendet?
- Findet die relevanten Verknüpfungen beispielsweise zwischen dem Einsatz neuer
Medien mit den Unterrichtsinhalten statt? (Oder werden neue Tools nur als Add-On
ohne Inhalte präsentiert?)
- Ist die Treatmentrealisierung korrekt?
• z.B. Klinische Forschung
- Nehmen die Patienten die Medikamente korrekt ein?
- Beantworten Patienten Fragebögen zur richtigen Zeit?
- z.B. bei Verlaufsstudien
- Werden die therapeutische Anweisungen wirklich befolgt?
- z.B. Wird der mit dem Therapeuten abgesprochene Tagesablauf eingehalten?
- Werden die Anweisungen des Personals überhaupt richtig verstanden?
- z.B. Gibt es eventuell sprachliche Probleme?
• Es werden drei Stufen der Treatmentrealisierung unterschieden
(hier ein Beispiel aus dem klinischen Kontext):
1. Zustellung / Bereitstellung des Treatments; z.B.: Medikament wird bereitgestellt
2. Entgegennahme des Treatments; z.B.: Medikament wird übergeben
3. Einhaltung des Treatments, z.B. z.B.: Medikament wird nach Anweisung eingenommen
Frage: Wie kann die Treatmentrealisierung kontrolliert werden?
Zu 1) Kontrolle der Zustellung / Bereitstellung des Treatments
• Fragen an die Durchführenden:
- Gibt es Manuale / Anleitungen?
z.B. Zur Durchführung der jeweiligen Therapieform bei einem bestimmten
Krankheitsbild. Aber auch genaue Beschreibungen eines Versuchsablaufes sollten
102
-
manualisiert sein. Hierbei sollten Fragen geklärt sein wie: Was wird, wann, wie einem
Probanden mitgeteilt?
Intensives Training der Therapeuten oder Versuchsleiter vor dem Beginn der
Untersuchung.
Standardisierung der Treatmentgabe ist bei komplexen Treatments eher schwierig.
Eine Supervision, gerade z.B. der Therapeuten ist notwendig, wobei eine Supervision
eher bei komplexen Treatments angewendet wird.
Ein Austausch unter verschiedenen Versuchsleitern sollte Standard sein.
 Zu 2) Entgegennahme des Treatments
• Weitere Fragen an die Durchführenden:
- Gibt es mündliche UND schriftliche Informationen an den Probanden?
- Wird genügend Zeit zum Lesen und Überdenken gegeben?
- Werden die Probanden zur Teilnahme und zur Einhaltung des Treatments motivieren?
Warnung: Motivation ist wichtig, Übermotivation hingegen eher gefährlich für die
Validität der Ergebnisse.
- Es sollte eine Überprüfung des übermittelten Wissens stattfinden, z.B. durch
- einen Wissenstest
- Beobachtungen auf physiologischer Ebene
- schriftliche oder mündliche Befragung des Probanden
zu 3) Einhaltung des Treatments
• Weitere Prüffragen:
Hat der Patient auch wirklich die Anweisungen des Versuchsleiters / Therapeuten befolgt? Z.B.
- Patiententagebuch, kontinuierliche Datenerhebung über mobile Geräte (z.B.
Fahrenberg, Leonhart & Foerster, 2002)
- Erhebung von Blutparametern zur Überprüfung der Medikamenteneinnahme
- Analyse von Körperschweiß zur Überprüfung der Drogenabstinenz
aber auch in der experimentellen Forschung:
- z.B.
- Schaut der Proband an die „richtige“ Stelle auf dem Bildschirm? (Messung der
Augenbewegung über Eyetracker)
- Sind die erhobenen Reaktionszeiten überhaupt realistisch? (Reaktionen unter 100 ms eher
zufällig)
- Hat der Proband die Aufgaben wirklich gelesen? (Messung der Bearbeitungszeiten)
Häufige Fehler-was alles schief gehen kann






Fanden noch zusätzliche Interventionen statt?
z.B.: Patienten nehmen an mehreren Experimenten gleichzeitig teil
(Große Gefahr, besonders bei klinischen Studien und Studien über längere Zeiträume)
Haben die Personen in der Kontrollgruppe nicht doch eine Form eines Treatments erhalten?
z.B.: Es kann nicht davon ausgegangen werden, das bei Personen in der Kontrollbedingung
„nichts“ passiert ist (bzw. auch Placebo hat eine Wirkung). Auch kann beispielsweise bei
Untersuchungen im klinischen Setting eine Vertauschung von der Zuordnung von KG und
EG erfolgen.
Es können auch unvorhergesehene Dinge passieren, z.B. Therapeuten erweitern „kreativ“ das
Treatment, weil sie durch die Studie auf neue Ideen kommen.
103

3 Probleme – 3 Lösungsansätze
1. Das Treatment wird nicht kontinuierlich über den vollständigen Untersuchungszeitraum
gegeben. Probanden brechen ab oder müssen aus der Treatmentgruppe genommen
werden.
 Intent-to-Treat-Analysen
2. Das Treatment wird in unterschiedlicher Stärke gegeben, wobei diese unterschiedliche
Stärke kein fester Bestandteil des Designs ist.
 Statistische Analysen unter Berücksichtigung der Treatmentstärke
3. Die Zuordnung zu Treatmentgruppe und Kontrollgruppe ist mit einem bias belastet.
 instrumental variable analysis (IV-Analysen)
Intent-to-Treat-Analyse
 Einsatz bei randomisiert kontrollierten Studien.
 Eher im klinischen Kontext.
 Berechnung nach „ursprünglichen Absicht, wie man behandeln wollte“.
 Patienten werden in derjenigen Gruppe analysiert, der sie zu Studienbeginn zugeteilt wurden
(Interventions oder Kontrollgruppe).
 Unabhängig davon, ob die Patienten eine andere Behandlung erhielten als ursprünglich
geplant (z.B. wegen Patientenwunsch) oder für Verlaufsuntersuchungen verloren gingen.
 Übertragbarkeit in die Praxis ist sichergestellt.
Dabei notwendig: durchgehende Daten, d.h. Pb muss bereit sein, weiter seine Daten zur
Verfügung zu stellen
Berechnung:
104
1. tatsächliche EG und KG
2. alle Personen der ursprünglichen EG bleiben in der EG, unabhängig von den Aussteigern
Vorteile:
 Gibt die Verhältnissen in der therapeutischen Praxis am Besten wieder.
 Ein Medikamentenwechsel oder eine schlechte Compliance der Patienten können
beispielsweise durch das Treatment bedingt sein.
 Durch die Randomisierung wurde eine Vergleichbarkeit der Gruppen (bei Studienstart)
gewährleistet. Somit konnte der Einfluss des Treatment besser bewertet werden.
Analysen unter Berücksichtigung der Treatmentstärke
 Anwendung im Rahmen eines quasi-experimentellen Design
Erfasst wird:
- Ob ein Treatment in Anspruch genommen wurde oder nicht (Merkmal „Treatment
erhalten“ ja / nein (1 / 0) ) oder wie stark das Treatment (0, 1 ,2, … n Therapiesitzungen
oder Medikamentendosis) in Anspruch genommen wurde.
Wichtig: Bei diesem Design wird dem Probanden die Wahl gelassen, ob und wie stark er das
Treatment in Anspruch nehmen will.
 Die Anspruchnahme des Treatments ergibt die Zugehörigkeit zu einer der Analysegruppen
oder geht als Kovariate in die statistische Auswertung ein.


Vorteile:
- Treatment wird nicht „aufgezwungen“, sondern freiwillig in Anspruch genommen
- „Geeignete“ Teilnehmer suchen sich das „geeignete“ Treatment aus.
Nachteile:
- Kausale Zusammenhänge sind schwieriger interpretierbar(Selbstselektion)
- Messung der Treatmentstärke / Anzahl der Treatments ist oft messfehlerbehaftet.
instrumental variable analysis

Statistische Analysemethode, welche primär in den Wirtschaftswissenschaften angewendet
wird.
Anwendung: Falls das Treatment nicht zuteilbar durch Randomisierung ist
- Beispiel: aus ethischen Gründen

Lösungsvorschlag: IV-Analyse
- Neben dem Kriterium Y und dem Prädiktor D wurde eine weitere randomisierte
(randomisierbare) Variable Z (instrument) hinzugefügt, so dass ein vorhandener bias in
der statistischen Analyse berücksichtigt werden kann.
Beispiel: Anreiz-Design
Fragestellung: Wie beeinflusst das Verhalten D (Schulbesuch, ja/nein) das Kriterium Y
(Einkommen mit 30 Jahren)?
Probleme:
- Schulbesuch (ja/nein) aus ethischen Gründen nicht randomisierbar.
- Probanden mit Schulbesuch und Probanden ohne Schulbesuch werden sich in diversen
Variablen signifikant unterscheiden.
Lösungsansatz: Randomisierte Zuteilung eines Anreizes Z (Subvention des Schulbesuchs).
Hierbei handelt es sich um eine instrumental variable.
Hierdurch soll der Einfluss des Schulbesuchs (D) auf das Einkommen (Y) besser erfasst werden.
• Beispiel: Anreiz-Design
105
Gibt es einen Effekt von D (Schulbesuch) auf Y (Einkommen)?
Zwei Überlegungen:
- Änderung von Y (Einkommen) durch Z (instrument,Subvention)
Y = E(Y |Z = 1) − E(Y |Z = 0)
- Änderung von D (Schulbesuch) durch Z (Subvention)
D = E(D|Z = 1) − E(D|Z = 0)
Wenn Z (Subvention) keinen direkten Einfluss auf Y (Einkommen) hat, entspricht Y dem
Effekt einer Änderung von D um D Einheiten.
Folge: Einfache lineare Regression:
Y = b0 + b1·D + e
Aber: Was ist, wenn es einen bias gibt? > Bias: Korrelation von D und e (verzerrte Schätzung)
Verzerrte Schätzung
• Normalerweise gilt in der Regressionsanalyse:
- Kein Zusammenhang zwischen Prädiktor und Vorhersagefehler beim Kriterium
- Durch Störvariablen oder Messfehler kann es aber zu einer Verzerrung kommen.
- Diese Verzerrung kann durch eine Korrelation zwischen Prädiktor und Vorhersagefehler
erfasst werden.
- Dies ist ein Hinweis auf eine inkonsistente Schätzung (bias).
- Lösungsansatz: Berücksichtigung einer instrumental variablen
• Voraussetzungen:
- Korrelation mit dem Prädiktor
- keine „direkte“ Korrelation zwischen instrument variable und Kriterium (nur eine
vermittelte Korrelation über den Prädiktor, Mediator)
- keine Korrelation mit dem Vorhersagefehler
- kein Bestandteil der eigentlichen Regressionsgleichung
106
107
Fazit instrumental variable analysis
 Durch die IV-Analyse ist eine bessere Schätzung der wahren Effekte möglich.
 Allerdings kann diese Schätzung nur durchgeführt werden, wenn ein Instrument, eine zufällig
verteilte weitere Variable, vorliegt, welche nicht mit dem Vorhersagefehler korreliert (kein
bias).
Attrition
 attrition (Schwund, Verlust, Verschleiß?)
zwei Fragestellungen:
- Wie kann der Schwund an Probanden verhindert werden?
- Wie kann statistisch damit umgegangen werden? (wurde schon an einem vorherigen
Termin besprocheninterne Validität)
Vermeidung von Attrition
 Wie kann Schwund vermieden werden?
 Unterscheidung zwischen vermeidbaren und nichtvermeidbaren Ursachen
vermeidbar: z.B.: das Treatment oder die Untersuchungsprozedur erzeugt eine ablehnende
Haltung bei den Probanden -> Abbruch des Experiments
nicht-vermeidbar: z.B.: Tod von Versuchspersonen / Naturkatastrophen
108








Tun Sie (fast) alles, damit Sie Ihre Versuchspersonen „bei Laune“ und „bei der Stange“
halten.
Wichtig gerade bei Studien mit mehreren Messzeitpunkten (eventuell über mehrere Jahre
hinweg)!
Pflege der Datenbank mit den aktuellen Adressen aller Teilnehmenden, sowie intensive
Pflege der Versuchspersonen selbst.
Prüfungsliteratur macht eine Liste von Vorschlägen zur Vermeidung von attrition (siehe
spätere Folien), aber ...
Beachten Sie den Datenschutz!
z.B.: Keine Befragung von Nachbarn, zu indiskretes Detektivspielen etc.
Differenzieren Sie bei der Datenerhebung zwischen dem einfachen „Erinnern“ und massivem
„Bedrängen / Belästigen“ der Probanden.
Besser: Verdeutlichen Sie den Teilnehmenden zu Beginn der Studie die wissenschaftliche
Relevanz und Notwendigkeit von vollständigen Daten.
Motivieren Sie und drohen Sie nicht
z.B. mit der Drohung das Probandengelder zurückgezahlt werden müssen.
Welche Daten sollten erhoben werden?

Name, Adresse, Telefon, E-Mail, Arbeitsplatz / Universität, Umzugspläne, Daten von
verwandten Personen, Daten aus dem Freundeskreis, Daten von Ärzten / Sozialarbeitern /
Betreuern des Arbeitsamtes (auch zur Überprüfung der Richtigkeit der Daten)
Wie können Versuchspersonen bestmöglich erfassbar bleiben?
 Bitte an die Probanden um Mitteilung einer Adressänderung (Frankierte Postkarte)
 Erste Rückfragen schon 2-3 Wochen nach dem ersten Kontakt
 Rückfragen immer zu ähnlichen Zeitpunkten innerhalb der Woche (z.B. immer am
Montagvormittag)
 Kontaktadresse mit relevanten Informationen zur Studie an die Probanden ausgeben
 Bezahlung der Kosten für ein anstehendes Interview versprechen (z.B. Fahrtkosten)
 Geburtstagsglückwünsche übermitteln (kommt die Post an)?
Falls Personen nicht mehr erreichbar sind:
 Nachfragen bei Freunden oder Bekannten
 Nachfragen bei der Post, ob es eine Adressänderung gab
 Nachfragen beim Telefonanbieter (Datenschutz?)
 Alumni-Vereinigungen / Organisationen für Klassentreffen, …
 Fragen Sie in der Nachbarschaft der ehemaligen Wohnung nach (oder dem Arbeitsplatz oder
bei Geschäften und Gaststätten)
 Probanden, welche früher schon mehrmalige Erinnerungshilfen gebraucht haben, vor einem
anstehenden Termin extra erinnern
 gute Pflege der Personen während der Untersuchung (Kaffee, Kuchen etc.)
 Informieren Sie die Probanden zu Beginn der Studie über die kommenden
Untersuchungstermine ausreichend
Vermeidung von Attrition
109




Vollständige Daten sind wichtig, auch falls das Treatment nicht konsequent umgesetzt wurde
(intention-to-treat-Analysen).
Vermeiden Sie unnötige zeitliche Verzögerungen im Ablauf der Studie.
Verhindern Sie alles, was Probanden zum Studienabbruch bewegt.
Falls inhaltlich möglich, geben Sie einen kurzen verständlichen „Zwischenbericht“ an die
Teilnehmenden, so dass diese die wissenschaftliche Bedeutung der Studie besser verstehen
und (noch) besser motiviert werden.
Analyse von Schwund

Deskriptive Analysen
- Fehlende Werte über alle Probanden hinweg?
- Explorative Datenanalyse mit dem Faktor Treatmentgruppe / Kontrollgruppe
- Gibt es relevante Unterschiede zwischen completern und non-completern?
- Sind diese Unterschiede in Treatmentgruppe und Kontrollgruppe vergleichbar?
- Sind die Probanden mit vollständigen Daten in Treatmentgruppe und Kontrollgruppe
vergleichbar?

Identifizierung von Mustern
- Gibt es verschiedene Gruppen von Probanden mit unterschiedlichen Mustern von
fehlenden Werten? (latent class analysis)
- Gibt es ein unterschiedliches Muster bei verschiedenen Messistrumente? z.B. Mehr
fehlende Werte bei einem bestimmten Fragebogen?
- Gibt es eine ausreichend große Untergruppe von Personen, so dass das experimentelle
Design noch als gültig betrachtet werden kann?

Lösungsansätze:
- Imputation von fehlenden Werten
- Statistische Modellierung der Effekte der fehlenden Werte
- Berechnung von Effektgrößen mit einer Adjustierung bezüglich der fehlenden Werte
- Vergleich zwischen imputierten und nicht-imputierten Daten
Prüfungsfragen
• Was wird unter einer intention-to-treat-Analyse verstanden? In welchem Kontext sollte diese
Anwendung finden?
• Was ist eine drop-out-Analyse?
Thema14: Meta-Analysen und Reviews
Generalisierung der Ergebnisse von mehreren Studien über:
- Narrative Interviews
- Quantitative Reviews = Meta- Analysen
Probleme bei Meta-Analysen
110
Einleitung
 Narrative Reviews und Meta-Analysen befassen sich mit der Zusammenfassung von
Studienergebnissen.
- Warum ist die Zusammenfassung von Studienergebnissen aus einzelnen Studien
notwendig?
- Für welche Zielgruppe werden diese Zusammenfassungen erstellt?
Warum Meta-Analysen?
 Exponentiell anwachsende Anzahl von publizierten Primärstudie.
 Ein einzelner Wissenschaftler kann die „tägliche Flut“ von Detailinformationen nicht
überschauen und rezipieren.
 Im Fachbereich Medizin werden in über 10.000 Fachzeitschriften weltweit jährlich über 2
Millionen Zeitschriftenartikel veröffentlicht (http://www.cochrane.de/deutsch/ccbackg.htm).
5500 Artikel pro Tag, Vier Artikel pro Minute
Folge
 Systematische Übersichtsarbeiten in Form von Reviews oder Meta-Analysen sind notwendig,
damit medizinische Entscheidungen im Sinne einer "Evidence Based Medicine" stets auf
Basis des aktuellen Wissensstandes getroffen werden. Aber auch für die
Grundlagenforschung ist eine Zusammenfassung von wissenschaftlichen Ergebnissen
sinnvoll.

Zielgruppe für Meta-Analysen:
- Praktiker (aktueller Wissensstand)
- Lehre / Studierende (Überblick zum aktuellen Wissensstand)
- Forscher (neue Hypothesen)
Vorteile Meta-Analyse:

Unterschiedliche Studien sind in vieler Hinsicht unterschiedlich
- Test der Generalisierbarkeit (externe Validität) eines Effekts (Homogenitätstest)
- Prüfung der Grenzen (Moderatorvariablen)
- Prüfung der Vermittlungshypothesen (Mediatorvariablen)
Man nutzt Daten, die bereits publiziert sind
111
Reviews vs. Meta-Analysen
 Wegen der Darstellung von studienübergreifenden quantitativen Effekten und Effizienzen
gelten Meta- Analysen im Vergleich zum qualitativen Review (im Sinne eines
Literaturüberblicks) als höherwertig und werden verstärkt angewendet (Cochrane & Silagy,
1999).
 Seit in den siebziger Jahren erstmalig der Begriff Meta- Analyse für die quantitative
Zusammenfassung einzelner Untersuchungsergebnisse verwendet wurde (Glass 1976), findet
diese Methodik vermehrt Anwendung.
Typen von Meta-Analysen
 Vier Typen können definiert werden (Blettner et al. 1999):
- Typ I: Zusammenfassung von Studien über Reviews
- Typ II: Meta-Analysen basierend auf publizierten Studienergebnissen („typische
Analyse“)
- Typ III: Erfassung der individuellen Rohdaten der integrierten Studien (retrospektiv)
- Typ IV: Erfassung der individuellen Rohdaten der integrierten Studien (prospektiv)
Narrative Reviews (Typ I):
Definition:
 Beschreibung der existierenden Literatur
 Ohne Zusammenfassung / Synthese der Studien zu einem Ganzen (im Gegensatz zu Typ II
bis IV)
 Teilweise mehrere hundert Studien zu einer Fragestellung werden deskriptiv dargestellt.
 Bewertung durch mehrere Reviewer
 „Grobe“ Einteilung in zwei bzw. drei Kategorien.
Nachteile: Es erfolgt keine Zusammenfassung/Synthese der Studien zu einem Ganzen. Hierdurch
reduziert sich insbesondere bei vielen Studien der Überblick.
Studien können:
 + = Ergebnisse haben (signifikante Unterschiede in die gewünschte Richtung)
0 = Ergebnisse haben (keine signifikanten Unterschiede)
- = Ergebnisse haben (signifikante Unterschiede entgegen der erwarteten Richtung)

Auswertung über box score oder vote counting:
- Einfaches „Abzählen“ der Studien, welche zu den drei Kategorien gehören.
- Teilweise wird hierbei auch die negative und die neutrale Kategorie zusammengefasst.
- Über das Ergebnis kann ein χ2-Test ermittelt werden.

Box score kann Hinweise auf potentielle Moderatorvariablen geben (durch einen Vergleich
der erfolgreichen mit den nicht erfolgreichen Studien).
Vorteil:
- Hilfestellung bei der Generierung neuer Hypothesen /Theoriebildung /
- konzentrierter Literatur- Überblick zu einem Thema
- Inhaltliche Theoretische Argumentation im Vordergrund
Nachteile / Kritik:
 Werden viele Studien integriert, kann leicht die Übersicht verloren gehen, da unterschiedliche
Studien mit verschiedenen potentiellen Moderatorvariablen
112







- Überforderung bei großen Zahlen von Moderatorvariablen und Studien
Einzelne Studien gehen in der Vielzahl der Studien „unter“.
Bei der Analyse keine systematische Gewichtung nach:
- der Stichprobengröße
- der Größe der Mittelwertsdifferenz
- der Effektgrößen
- dem erzielten Signifikanzniveau (p<.0001 versus p=.49)
Ungenaue Zusammenfassung der Signifikanzen (Signifikant ja/nein)
Zusammensetzung der box counts können sehr heterogen sein, da bei gerichteten Hypothesen nicht
zwischen
- p = .049 und p < .0001, beziehungsweise zwischen
- p = .50 und p = .99 unterschieden wird
Die Analyse der Zusammenhänge zwischen abhängigen Variablen und möglichen Moderatorvariablen
innerhalb eines Reviews ist relativ komplex (besonders bei vielen Studien).
Die Differenzen bei Moderatorvariablen und unabhängigen Variablen variieren in ihrer Größe und
können nur schwer als komprimierte Kennwerte zusammengefasst werden.
Folge:
- „Reine“ narrative Reviews sind eher selten geworden.
- Narrative Reviews werden oft mit Meta-Analysen vom Typ II kombiniert (quantitative Reviews).
Meta-Analysen (Typ II)

Historisches / erste Meta-Analysen:
o Roger Cotes (18. Jh.)
 gewichtete Mittelwerte von Abweichungen bei verschiedenen Astronomen
o Sir Karl Pearson:
 Mittelwerte von Korrelationskoeffizienten (Fishers Z)
o Eysenck (1952):
 Psychotherapie-Erfolgs-Studie
o Glass (1976):
 „erste“ Meta-Analyse (erstmalige Begriffsverwendung)
• Definition:
- Statistische Aggregation von Ergebnissen aus Studien mit gleicher / ähnlicher
Fragestellung
- Bessere Schätzung der „wahren“ Effekte durch Auswertung / Zusammenfassung mehrerer
Studien
- Ermittlung von Konfidenzintervallen über die Studien hinweg
- Untergruppenanalysen (Subgruppenanalysen) und Moderatoranalysen sind möglich
• Arbeitsschritte:
1) Identifizierung & Präzisierung der Fragestellung, Literaturrecherche
2) Kodierung der Studien
3) Ermittlung der Effektgrößen
4) Analysieren der Meta-Analyse-Daten
5) Interpretation und Präsentation der Ergebnisse
zu 1)• Identifizierung & Präzisierung der Fragestellung, Literaturrecherche
 Bevor mit einer Literaturrecherche begonnen werden kann, muss die Fragestellung explizit
gestellt werden.
113


Die Fragestellung kann sehr differenziert oder auch sehr breit gefasst sein (z.B. Wirkt
Psychotherapie?).
Allerdings kann eine zu breite Fragestellung zu einer „Flut“ von passenden Studien führen.
Generell: Um Selektionsbias zu vermeiden, sollten alle durchgeführten Studien erfasst werden
 Diplomarbeiten, Promotionen, Habilschriften sind oft nur schwer erreichbar.
 Forschungsberichte, interne Papiere sind oft unter Verschluss
institutsintern siehe http://portal.unifreiburg.de/psychologie/forschung/fobe90.html
 Es werden nicht alle Zeitschriften in medline oder psyndex geführt (nur die „Guten“).
 Publication bias und file-drawer Problem
 Deshalb sollte nach Möglichkeit möglichst viel der „grauen Literatur“ erfasst werden.
Wie kann „graue Literatur“ erfasst werden? (=Literatur, die nicht über die Datenbanken gefunden
werden kann)
 Bekannte Forscher auf dem jeweiligen Forschungsgebiet anschreiben.
 Außerhalb der „festgetretenen Pfade“ suchen (z.B. Internet, Tagungen, Fachverbände
anschreiben etc.).
 In diversen Universitätsbibliotheken suchen.
 Spezielle Kliniken / Zielgruppen anschreiben (nicht nur bezüglich Manuskripten, sondern auch
beispielsweise wegen Stations- oder Klinikstatistiken).
Zu 2) Kodierung der Studien
 Zur Erfassung der einzelnen Studien ist ein umfangreiches Kodierschema notwendig.
 Diese Kodierung muss vor der Datenerhebung entwickelt und getestet sein.
 Je differenzierter das Schema, desto besser die Meta-Analyse.
- Problem Interrater-Reliabilität
Psychotherapieforschung


Grawe, K., Donati, R. & Bernauer, F. (2001). Psychotherapie im Wandel - Von der
Konfession zur Profession. Göttingen: Hogrefe.
Grundlegendes Werk der Psychotherapieforschung
Grawe et al. (2001)
• Wissenschaftlichen Güteprofile je vorhandener wissenschaftlicher Veröffentlichung zu
verschiedenen Therapiemethoden (acht einzelne Gütekriterien)
1. Klinische Relevanz
2. Interne Validität
3. Güte und Information
4. Vorsicht bei der Interpretation
5. Reichhaltigkeit der Messung
6. Güte der Auswertung
7. Reichhaltigkeit der Ergebnisse
8. Indikationsrelevanz
zu 3)Ermittlung der Effektgrößen
 Über Effektgrößen wird der gefundene Effekt standardisiert. Hierdurch ist ein Vergleich von
Ergebnissen aus verschiedenen Studien trotz unterschiedlicher abhängiger Variablen möglich.
Es gibt eine Vielzahl von Effektgrößenmaßen (η2, R2, …)
 Beispielhaft zwei Formen der Effektgrößenberechnung:
114
-
Standardisierte Mittelwertsdifferenzen (d-Maß) - für intervallskalierte Merkmale
odds ratio (or) - für dichotome Merkmale
d-Maß



Einteilungsvorschlag nach Cohen (1988) in
 kleine (d = 0,2)
 mittlere (d = 0,5)
 große Effekte (d = 0,8)
Maß ist klar definiert bei zwei Gruppen und einem Messzeitpunkt
Wie wird das d-Maß berechnet bei
- mehr als zwei Gruppen?
- bei abhängigen Stichproben?
Praktische Folgen:
 In einem Artikel wird publiziert:
„durch das neue Interventionsprogramm konnte bei einer Gruppe von Psychosomatikpatientinnen (n=43) eine Verbesserung von d = .85 erreicht werden. Somit ergibt sich nach
Cohen ein großer Effekt der Behandlungsmaßnahme…
 Praktische Bedeutung?
 Wirklich ein großer Effekt?
Forderungen beim Berichten des Effektgrößenmaßes d / nach Transparenz
 Transparente Darstellung aller deskriptiven Kennwerte.
 Transparente Darstellung der berücksichtigten Streuung.
 Bewertung der ermittelten Effektgröße durch einen Vergleich mit Effektgrößen aus ähnlichen
Populationen / Studien / Interventionen und nicht mit dem Bewertungsvorschlag von Cohen.
odds ratio




Die Odds Ratio beschreiben das Verhältnis zweier Odds (Chancen) zueinander.
Da die Odds Ratio Verhältnisse beschreibt, bedeutet eine Odds Ratio von 1 „kein
Unterschied“.
Ein Wert größer als 1 beschreibt ein „Risiko“ für ein Ereignis.
Ein Wert kleiner als 1 beschreibt eine „Schutzfunktion der Gruppenzugehörigkeit“ vor einem
Ereignis.
115
Zu 4) Analysieren der Meta-Analyse-Daten:
 Generell werden die Daten von Meta-Analysen analog zur „Standardstatistik“ ausgewertet
 Berücksichtigt werden sollte allerdings:
- die verschiedenen Stichprobengrößen
 Gewichtung bei Aggregieren
- Homogenitätstests für die Effektgrößen
 Gegebenenfall gefolgt von Moderatoranalysen
- hierarchische Strukturen in den Daten
- Abhängigkeiten der Effektgrößen innerhalb der Studien
 bei mehreren berücksichtigten abhängigien Variablen
- publication bias
zu 5) Interpretation und Präsentation der Ergebnisse
 Auch die Zusammenhänge in den Daten einer Meta-Analyse sind nur Korrelationen.
 Deshalb: Vorsicht bei Aussagen über Kausalität!
 Gefahr der „Überinterpretation“ der Daten (da große Datengrundlage „Sicherheit“ bei der
Interpretation vorspiegelt).
 Es gibt eine lange Liste von methodischen Problemen von Meta-Analysen (siehe folgende
Folien)
Validitätsbedrohungen Meta-Analyse
1. Bedrohungen von Schlussfolgerungen über einen korrelativen Zusammenhang von Treatment
und abhängiger Variablen
o Effektstärken größer Null oder nicht?
2. Bedrohung der Schlussfolgerung hinsichtlich Kausalität
3. Bedrohung der Konstruktvalidität
4. Bedrohung der externen Validität
Bedrohung der Beurteilung eines Zusammenhangs
1. Mangelnde Reliabilität in den Primärstudien
 Die Verwendung von nicht- reliablen Messinstrumenten kann die ermittelten
 Korrekturfaktoren sind möglich, aber es müssen die Reliabilitätskennwerte vorliegen.
Problem:
 Reliabilität der Messinstrumente wird oft nicht in den Primärstudien berichtet
 bei Standardverfahren kann dies allerdings über die Testmanualen in Erfahrung gebracht
werden
116
2. restriction of range in den Primärstudien
 Reduktion der Effektgrößen durch Decken- Bodeneffekte/ Varianzeinschränkungen in der
abhängigen Variablen
 Korrektur ist möglich, falls die Populationsvarianzen bekannt sind.

Fehlende Effektgrößen Angaben in den Primärstudien
 nicht-signifikante Ergebnisse ungenau angegeben werden (z.B. kein p-Wert).
 abhängige Variablen erwähnt, aber keine statistischen Ergebnisse angegeben werden.
Lösung: Kontaktaufnahme mit den Autoren des jeweiligen Manuskripts (und bessere Standards
bei den Zeitschriften).
4. Unreliable Kodierung der Studien
 Bei der Durchführung der Meta-Analyse werden Studien meist von verschiedenen Reviewern
nach verschiedenen Kriterien beurteilt (Relevanz zum Thema, methodische Qualität, Qualität
der verwendeten Instrumente etc.).
 Die Bewertung der Studien kann allerdings bei unterschiedlichen Reviewern differieren.
 Lösungsmöglichkeiten:
o Klare Aufzeichnung der Kodierung
o Training der Reviewer
o Kodierung über eine Vielzahl von Items
o Bewertung einer Studie durch mehrere Reviewern
o Im Zweifelsfall Rückfragen an die Autoren
5. capitalizing of chance
 Erhöhtes Risiko bei Meta-Analysen mit vielen Studien und vielen potentiellen Prädiktoren.
 Eine große Anzahl von Tests erhöht die Gefahr der capitalization of chance.
Lösungen:
 Bonferroni-Korrektur
 multivariate Analysen
 zielgerichtete Analyse von nur einigen wenigen Hypothesen
Bias in der Auswahl von Effekten für die Meta-Analyse
 kann entstehen, wenn der Forschende die vorhandenen Effektgrößen nicht vollständig in die
Meta-Analyse eingehen lässt (z.B. aus inhaltlichen Gründen, mangelnde Relevanz für die
Kernfragestellung der Meta-Analyse, etc.).
 Unbeabsichtigt können hierbei eher die „gewünschten“ Ergebnisse in die Studie
eingehen, während die „unerwünschten“ Studien eher als irrelevant betrachtet werden.
7.Publication Bias/file-drawer Problem
 Publikationsverzerrungen, sogenanntes File-drawer-Problem (Tendenz bei Autoren und
Herausgebern, erwartungskonforme Studien bevorzugt zu veröffentlichen).
Lösungsansätze:
- Vermehrte Anstrengungen, unpublizierte Studien mit in die Meta-Analyse
einzubeziehen (graue Literatur, z.B. Diplomarbeiten, Promotionen).
- Vergleich der Effektgrößen in publizierten und nicht-publizierten Studien.
- Berücksichtigung des bias bei der Darstellung der Ergebnisse der Meta-Analyse.
117
8.Bias bei der Berechnung der Effektgrößen
 Durch mangelhafte Dokumentation beziehungsweise unzulängliche Kodierung der
Studienmerkmale fehlen oft wichtige Kennwerte zur Ermittlung der Effektgrößen.
 Verschiedene Methoden zum Umgang mit diesen fehlenden Werten werden in der aktuellen
Literatur diskutiert.
 Geprüft werden sollte, ob diese Methoden zu differierenden Ergebnissen kommen.
9.Ermittelte Effektgrößen sind statistisch abhängig
 Statistische Unabhängigkeit ist nicht gegeben, wenn:
- Verschiedene ES in einer analogen Gruppe mit ähnlichen Variablen ermittelt werden.
- Verschiedene ES verschiedene Interventionsgruppen mit einer einzigen
Kontrollgruppe vergleichen.
- Verschiedene ES in einer Studie für unterschiedliche Stichproben ermittelt werden.
- Verschiedene Studien zu einer Thematik von einer Forschergruppe erhoben werden.
10.Fehlende Gewichtung (ES) nach Stichprobengröße
 Studien mit vielen Probanden sollten stärker bei der Ermittlung von ES berücksichtigt
werden.
 Hierdurch werden die ermittelten ES exakter
 Besonders relevant, wenn Studien mit sehr unterschiedlichen Stichprobengrößen in der MetaAnalyse berücksichtigt werden sollen.
11.Verwendung von nicht geeigneten Homogenitätstests
 Ungenaue/ nicht-informative Homogenitätstests
 Homogenitätstests:
o Moderatoranalysen sinnvoll?
o Random fixed effects Modell sinnvoll?
 Bei kleinen Größen der Primärstudien wenig Power




Für die meta-analytische Auswertung muss berücksichtigt werden, ob die Streuungen der erhobenen Merkmale
zwischen den einzelnen Studien als homogen betrachtet werden können.
Allerdings besteht bei Meta-Analysen mit wenigen Studien und geringem Stichprobenumfang in den einzelnen
Studien die Gefahr, dass wegen zu geringer Teststärke Varianzheterogenität nicht entdeckt wird.
Frage: Sind bei vorliegender Varianzheterogenität die Studienergebnisse wirklich
aggregierbar?
Lösung: In diesem Fall konservativ eher von Varianzheterogenität ausgehen!
12. Ungerechtfertigter Einsatz des ALM für feste Effekte
 In den meisten meta-analytischen Auswertungen wird von festen Effekten ausgegangen und
im ALM mit festen Effekten gerechnet.
 Die Voraussetzungen für feste Effekte sind allerdings meistens nicht zu gewährleisten.
 Lösung: Modelle für feste und zufällige Effekte rechnen und die Ergebnisse vergleichen.
13.Zu geringe statistische Power
 Dieses Problem tritt eher selten auf.
 Trotzdem muss bei Meta-Analysen mit wenigen Studien und jeweils geringem
Stichprobenumfang die Power des Verfahrens hinterfragt werden.
 Allerdings liegt im Allgemeinen bei der Durchführung einer Meta-Analyse immer eine relativ
starke Power vor!
 Probleme bei zu feiner Einteilung der Studien nach kodierten Variablen
118
Bedrohungen der Kausalitätsbeurteilung
1.Fehlende randomisierte Zuweisung
 Problem:
o Es gehen Studien mit randomisierter Zuweisung und Studien ohne randomisierte
Zuweisung in die Meta-Analyse ein.
o Sind diese vergleichbar?
 Lösung:
o Zwei Meta-Analyse (Randomisierte Studien vs. nichtrandomisierte Studien)bzw. Art
der Studie (randomisiert oder nicht) als Moderatorvariable kodieren
 Allerdings müssen genügend Studien vorliegen („kritische Masse“).
2.Schwund in den Primärstudien
 Probleme mit Schwund von Probanden in den einzelnen Primärstudien (missing data) setzen
sich in der Meta-Analyse fort.
 Robustheitsanalysen
 Schwundrate (total und differentiell) als Moderator berücksichtigen
 Generell gilt für die Probleme mit der methodischen Qualität der Primärstudien das
Statement: ‚garbage-in, garbage-out‘
o Allgemeiner Vorwurf gegenüber Meta-Analysen.
3.Moderatorvariablen
 Möglicherweise gibt es Moderatorvariablen, welche die gemessenen Effekte beeinflussen.
Probleme:
- Moderatorvariablen korrelieren oft hoch mit weiteren Variablen im Design kausale
Aussagen schwierig
- Der Einfluss mancher konfundierter Variablen kann konstant gehalten werden durch
Analysen innerhalb der Studie z.B. Variablen die pro Studie kodiert werden
Bedrohung der Konstruktvalidität
 Mangelnde Repräsentation typischer Konstrukteigenschaften
- Bsp. Meta-Analyse zu ethnischen gemischten Schulformen mit Studien, die erst seit
höchstens drei Jahren gemischten Unterricht betreiben
 Kodierte Konstrukte nur durch ein Item repräsentiert (z.B. Güte/ Repräsentativität/Bedrohlichkeit)
- Unreliabel, oftmals Interraterreliabiltät gar nicht bestimmt
 Rater drift
 Rater bias
- Trennung von Effektgrössenberechnung und Kodierung der Moderatorvariablen
 Zu abstrakte Charakterisierung des Konstrukts
z. B. Verhaltenstherapie, wenn tatsächlich alle Studien Verhaltenstherapie im Kontext von
Forschungsambulanzen an Psychologischen Instituten betreffen
 Konfundierung von Konstrukt mit anderen Studiencharkteristika
119
-
z.B. Treatment ( Verhaltenstherapie vs. Gesprächspsychotherapie) mit
Operatinlisierung der abhängigen Variable) häufiger Verhaltensmaße als Selbstbericht
zu Erleben
Bedrohungen der externen Validität
 Personen, Umstände, Behandlungen und abhängige Variablen der Primärstudien sind nicht
zufällig gezogen
- Sampling bias beschränkt Generalisierbarkeit in unbekannter Weise
 Eingeschränkte Hetreogenität der Studiencharakteristika
- Rigide Auschlusskriterien zugunsten standardisierter Behandlungen, Populationen,
abhängiger Variablen
 Kein Test auf Heterogenität durchgeführt
- Illusion der Verallgemeinerbarkeit
 Zu niedrige Teststärke, um Unterschiede in ES in kleinen Gruppen von Studien zu erkennen.
Studienmerkmale werden unreliabel kodiert.
• Studien werden nur mit einer Untersuchungsmethode durchgeführt.
• Urteile der Rater verändern sich im Laufe der Untersuchung (rater drift).
• Da die Ziele der Meta-Analyse transparent sind, sind die Urteile der Rater reaktiv zu den
Effekten in den zu beurteilenden Studien.
• Die Festlegung des untersuchten Konstrukts hängt mit anderen Konstrukten zusammen (z.B.
Reha-Maßnahme = meist stationär).
• Untersuchtes Konstrukt hat Einfluss auf diverse Studienmerkmale (z.B. Setting, Messmethoden
etc.).
• Da kausale Modelle auf der Korrelationsstruktur aufbauen, müssen gerade diese Ergebnisse
besonders kritisch betrachtet werden.
• Heterogenität der eingeschlossenen Populationen, Treatments, Outcomes, Settings und
Messzeitpunkte muss eingeschränkt werden (Apples-and-oranges-Problem, Äpfel-und-BirnenProblem, zu große Unterschiede in den Operationalisierungen).
• Zu große Heterogenität bei den ermittelten Effektgrößen erzeugt einen begründeten Zweifel an
den Ergebnissen.
3) Meta-Analysen vom Type III und IV
• Exaktere und vielfältiger Berechnungen aufgrund der vorliegenden Rohdaten
möglich.
• Auch sind Analysen in verschiedenen Subgruppen durchführbar.
• Eine bessere Schätzung von Populationskennwerten ist möglich.
Praktische Frage: Wie ist die Durchführbarkeit solcher Studien?
• Erfahrungen aus eigenem Projekt sind eher negativ.
• Siehe folgende Folien und: Leonhart, R. & Maurischat, C. (2004). Meta-Analysen auf
Primärdatenbasis - Probleme und Lösungsansätze. Zeitschrift für Evaluation, 3, 21-34.
Durchführungsprobleme
Problembereich: Forschungsethik und Datenschutz
•Verweigerung der Daten aus ethischem Bedenken (Nicht- Information der Teilnehmenden)
120
•Verweigerung der Daten aus datenschutzrechtlichen Bedenken
Lösungsansätze:
•Berücksichtigung von einheitlichen Richtlinien zum Datenschutz
•Datenhaltung nur in eindeutig anonymisierte Form
•Hinweis auf mögliche Meta-Analysen in der Einverständniserklärung
•Veranschaulichung des wissenschaftlichen Erkenntnisgewinns durch die Meta-Analyse
•Berücksichtigung der Stichprobengrößen
•Berücksichtigung der Anzahl der einbezogenen Studien
Problembereich Nutzungsrechte von Forschungsdaten
•Datenweitergabe an Ko-Autorenschaft geknüpft
•geringer individueller Nutzen für die Mitarbeitenden im Primärprojekt
Lösungsansätze:
•Richtlinien zur Ko-Autorenschaft
•Erstellung von Sammelbänden
•Bildung von Forschungsgruppen
Problembereich Erreichbarkeit von Verantwortlichen und Zugriff auf Daten
•Probleme der Definition aller Verantwortlichen
•Probleme beim Erreichen der Verantwortlichen
•Schwierigkeiten bei Ortung der Daten
•Heterogenität der Datensatzstrukturen
Lösungsansätze:
•Zentrale Datenbanken mit Projektbeschreibungen
•Kopplung von Fördergeldern an Ergebnistransfer
•Definition der Verantwortlichen und transparente Verortung der Daten
•Dokumentation der Datenverarbeitung in Variablenhandbüchern
•Vorgaben bei der Variablenbenennung
•Methodische Supervision und Datenkontrolle
•Zentrale Datenhaltung
o via Internet
o beim Förderer
Problembereich: Qualität und Plausibilität der erhaltenen Daten
•Unvollständiger Einsatz der Instrumente
•Zu geringe Stichprobenzahlen
•Abweichungen vom ursprünglichen Instrumenten
•Unplausible Werte
Lösungsansätze:
•Vollständiger Einsatz der Instrumente
•Kopplung von Fördergeldern an Forschungsziele
•Auswertungs- und Kontrollhilfen
o für standardisierte Testverfahren
o durch methodische Supervision
•Datenbanken zur Durchführung und Verwaltung von Befragungen
Zusammenfassung
• Generalisierung der Ergebnisse von mehreren Studien über
121
�Reviews
�Meta-Analysen
• Verschiedene Typen von Meta-Analysen
• Probleme von Meta-Analysen
Mögliche Prüfungsfragen
• Wer benutzte erstmals den Begriff der „Meta-Analyse“?
• Wie wird beim vote counting vorgegangen?
• Welche Literatur wird unter dem Begriff „graue Literatur“ zusammengefasst?
• Wie ist das odds ratio definiert?
• Bei der (fiktiven) Analyse von Sterbefällen bei Rauchern und Nicht-Rauchern liegt das odds
ratio bei 4.32. Wie ist dieser Kennwert zu interpretieren?
• Sind die Bewertungsvorschläge des d-Maßes nach Cohen immer sinnvoll?
• Berechnung eines odds ratio an einem Beispiel (Einsetzen der Zahlen).
• Wie wirkt sich die Verwendung unreliabler Instrumente auf die Höhe der Effektgrößen bei Meta-Analysen aus?
• Welches Problem der Meta-Analyse wird mit dem Statement „garbage in – garbage out“ beschrieben?
• Ein Psychoanalytiker kritisiert die Studie von Grawe et al. mit dem Satz: „Hier werden Äpfel und Birnen in eine
Analyse gepackt“. Was möchte er mit diesem Satz ausdrücken?
122
Herunterladen