Externe Validität und Konstruktvalidität

3.
Externe Validität und Konstruktvalidität
Wichtiger Begriff:
Trade-off: Austausch eines „Dings“ durch ein anderes; vor allem die Preisgabe eines Vorteils
oder Nutzens gegen einen noch größeren Vorteil oder Nutzen
1) Konstruktvalidität
Konstruktvalidität bezieht sich auf die Zulässigkeit von Aussagen aufgrund der Operationalisierung
über das gesamte dahinter liegende Konstrukt. Dies ist in der Regel dann der Fall, wenn davon
ausgegangen werden kann, dass der Bedeutungsumfang des Konstruktes präzise und nachvollziehbar
abgebildet ist.
2 zentrale Probleme der Konstruktvalidität:
1) Verstehen/Definition/Benennung des Konstrukts
2) Erfassen des Konstrukts
(besonders in Sozialwissenschaften schwierig, da hier keine natürlichen Maßeinheiten
gegeben sind (Depression) wie in Naturwissenschaften (Gewicht))
Aber: Forschung kommt nicht ohne Konstrukte aus
3 Gründe für Bedeutsamkeit von Konstruktvalidität:
1) Konstrukte als zentrales Maß zur Verbindung zwischen den im Experiment genutzten
Operationalisierungen und a) der zugehörigen Theorie b) der Sprachgemeinschaft, die
Ergebnisse praktisch umzusetzen versucht
2) Konstruktbeschreibungen beinhalten oft soziale, politische und ökonomische
Implikationen (z.B. Definition von Arbeitslosigkeit; gilt jemand, der an
Trainingsmaßnahme des Arbeitsamtes teilnimmt noch als arbeitslos oder nicht?!)
3) Erschaffung und Schutz von grundlegenden Konstrukten ist elementare Aufgabe jeder
Wissenschaft (z.B. Entwicklung des Periodensystems in der Chemie oder Benennung
der Bestandteile von Wasser)
1) Verstehen/Definition/Benennung des Konstrukts
Warum Konstruktrückschlüsse problematisch sind
Benennung von Dingen allgemeines wissenschaftliches Problem, weil Namen
Kategoriezugehörigkeiten widerspiegeln, die wiederum in Beziehung zu anderen Theorien
oder Konzepten stehen.
Schritte zur Konstruktvalidität:
1) Eindeutige Bestimmung von Personen, Settings, Treatments und Outcomes, die von
Interesse sind
2) Sorgfältige Auswahl von Fällen, die zu diesen Konstrukten passen
3) Bewerten wie gut Konstrukt und Einzelfall zusammenpassen
4) entsprechende Korrektur der Konstruktbeschreibungen
Problem bei der Benennung:
Jedes Konstrukt hat viele Charakteristika, von denen manche zentraler sind als andere und
deswegen prototypisch genannt werden. (Beispiel: charakteristisch für einen Baum ist, dass es
sich um eine große, hölzerne Pflanze handelt, mit einem dicken Stamm; dicker Stamm und
Höhe unterscheidet Bäume von Büschen, aber: es gibt auch Büsche, die größer sind als
Bäume)
→ Anwendung von pattern-matching (Vergleich der prototypischen Merkmale des
Gegenstandes mit intuitivem prototypischen Kategoriebegriff), um zu entscheiden, ob ein
gegebener Fall zu den prototypischen Charakteristika passt
Es ist jedoch oft schwierig zu entscheiden, welche Charakteristika eher peripher und welche
prototypisch sind, da dies u.a. vom Kontext und von der Sprachgemeinschaft abhängt.
(Beispiel: Die Aborigines haben Kategorie für „Frauen, Feuer und gefährliche Dinge“,
während diese Begriffe im Englischen/Deutschen nicht einer Kategorie zuzuordnen sind)
In den Sozialwissenschaften ist dieser Entscheidungsprozess noch schwieriger, da viele
Konstrukte noch untersucht und entdeckt werden und somit starke Übereinstimmungen über
prototypische Konstruktcharakteristika eher die Ausnahme sind. Außerdem sind die
Einheiten, mit denen sich Sozialwissenschaftler beschäftigen abstrakter Natur (z.B. Gewalt,
Absicht, Entscheidungen…)
→ Forscher wählen während des Forschungsprozesses aus, welche Merkmale prototypisch
sind und welche nicht
→ Bedenkt man all diese Schwierigkeiten, so wird deutlich, dass es niemals möglich ist, eine
eins-zu-eins Beziehung zwischen Operationalisierungen und den zugehörigen Konstrukten zu
erstellen
Statt Versuch der Herstellung einer eins-zu-eins Beziehung sollte man:
1) ein Konstrukt auf unterschiedliche Weisen operationalisieren (innerhalb einer Studie
und über mehrere Studien hinweg)
2) Prüfen, ob Konstrukt und Operationalisierung wirklich zusammenpassen
3) Debatte zulassen, ob Operationalisierung und Konstrukt wirklich zusammenpassen,
da sowohl Operationalisierung als auch Konstrukt sozial konstruiert sind
2) Erfassen des Konstrukts
Konstruktvalidität wird meist für die abhängigen Variablen diskutiert, aber sie muss auch für
Personen (einfachste Unterscheidung: z.B.Trennung nach Geschlecht; schwieriger z.B.
Schizophrenie: unterschiedliche Kategorisierung, je nachdem welcher Test angewendet wird)
Setting (oft keine genaue Beschreibung; „the Psychology Department Psychological Services
Center“ – keine Aussage über Größe, Personal, Klientel…)
Treatment (Beispiel: Psychotherapie; oft nur Unterscheidung nach VT, GT, ST ohne genaue
Beschreibungen der Therapieform (Gründe: Aufwand und mangelnde Anzahl akzeptierter
Messverfahren für Psychotherapie)
definiert und diskutiert werden. Von allen einzelnen Aspekten sollten sich Rückschlüsse auf
die zugrundeliegenden Konstrukte ziehen lassen
Gefährdungen der Konstruktvalidität
1) Ungenügende Analyse der Konstrukte
Ein Ungleichgewicht zwischen Operationalisierung und Konstrukt kann durch die inadäquate
Analyse der Konstrukte einer Studie entstehen.
→ Voraussetzung für Konstruktvalidität ist Konstruktexplikation
Beispiele:
1) Das Konstrukt „Aggressivität“; wird meist beschrieben als beabsichtigtes Schädigen
von anderen Personen in Verbindung mit einem gesundheitsschädlichen Resultat. Man
nehme nun 3 Situationen an: 1) Ein Junge hat ein blaues Auge, weil ein anderer
versehentlich mit ihm zusammengestoßen ist. 2) Ein Junge hat ein blaues Auge, weil
ein anderer ihn geschlagen hat, um dessen Süßigkeiten zu bekommen (instrumentelle
Aggression) oder um ihm einfach so zu schaden (nicht instrumentelle Aggression). 3)
Die verbale Bedrohung eines Kindes, dass es ein anderes Kind schlagen werde, wenn
es die Süßigkeiten nicht hergebe. Nach der oben genannten Definition handelte es sich
nur bei Situation 2 um aggressives Verhalten
2) Patientenzufriedenheit
Zufriedenheit der Patienten mit der Organisation, mit der Patient-TherapeutInteraktion und mit der Unterbringung
Aber nicht: Zufriedenheit mit touristischem Angebot in Umgebung, etc.
3) Selbstwertgefühl
Das allgemeine Selbstwertgefühl (schwankend) ist nicht Mittelwert
bereichsspezifischer Selbstwertgefühle (stabiler).
Nach Mark (2000) gibt es 4 häufig auftretende Fehler/Gefahren bei der Beschreibung der
Konstrukte:
1) nur sehr allgemeine Konstrukte beschrieben werden,
- z.B.: Studieneignung, Verhaltenstherapie
2) Zu spezifisch erhoben wird,
- z.B.: nur die Erhebung der mathematischen Fähigkeiten zur Erfassung der
Studieneignung im Fach Psychologie
3) falsche Messungen für die Konstrukte verwendet werden oder
- z.B. Intelligenztest bei Kindern von Immigranten als Maß der kognitiven Entwicklung.
4) mehrere Konstrukte zugrunde liegen, wobei nur ein Konstrukt diskutiert wird.
- z.B. Studierfähigkeit im Fach Psychologie besteht aus Intelligenz, Motivation,
Kommunikationsfähigkeiten etc.
2) Konfundierungen zwischen verschiedene relevanten Konstrukten
• durch ungenügende Erfassung aller zugrunde liegenden und intervenierenden Konstrukte
gibt es möglicherweise nicht erkannte Zusammenhänge zwischen den Konstrukten
• es wurden nicht alle relevanten Variablen / Konstrukte erhoben
• z.B. Untersuchung zur Anzahl von Psychologen in Führungspositionen in der freien
Wirtschaft
- relativ wenig Psychologen in Führungspositionen in der freien Wirtschaft
- aber unter den Psychologen gibt es einen hohen Frauenanteil bei den Absolventen
- Findet nun in der freien Wirtschaft eine Benachteiligung der Psychologen oder der
Frauen statt?
- Statt Beruf eher Geschlecht als relevantes Personenkonstrukt?
3) mono-operation-bias
• Nur eine Operationalisierung des Ergebniskonstrukts oder des Treatmentkonstrukts.
• Das erhöht das Risiko einer inadäquaten Realisierung des Konstrukts.
• z.B.: Erfolg einer Schulungsmaßnahme
- es wird nur in einer Filiale eines Betriebes eine Schulungsmaßnahme durchgeführt
und die Erfolge dieser Maßnahme werden nur mit einer weiteren Filiale verglichen
(=Kontrollgruppe)
- Besser wären multiple Maßnahmen mit unterschiedlichen Dozenten und Betrieben:
Gibt es hier Unterschiede, so ist die Schulung vielleicht kein einheitliches Konstrukt.
- Maße der sozialen Kategorisierung.
4) mono-method-bias
• Die Daten werden nur mit einer Erhebungsmethode erhoben.
- Z.B. Nur Selbstberichtdaten.
• Die Methode der Datenerhebung (Fragebogen, Interview, Internetbefragung etc.) hat aber
möglicherweise einen Einfluss auf die Ergebnisse der Messung
• Lösung: Nach Möglichkeit immer mehrere Datenquellen
(Selbstbeobachtung,Fremdbeobachtung, Fragebogen, etc.) verwenden.
• Problem: Je mehr Instrumente, desto höher ist der Aufwand. Welche Methoden der
Datenerhebung sind sinnvoll und welche sind notwendig zum Erreichen
einer guten Konstruktvalidität?
5) Treatment erhöht Sensitivität für die Struktur der untersuchten Konstrukte
z.B. Untersuchung zum Antisemitismus
- Kontrollgruppe erhält nur Fragebogen
- Experimentalgruppe erhält achtstündige Informationsveranstaltung und anschließend einen
Fragebogen
- durch erhöhte Sensitivität der Probanden in der EG werden differenziertere Antworten
gegeben, das verändert das gemessene Konstrukt.
6) Selbstberichte/Protokolle sind auch abhängig von der Patientenmotivation
- z.B. bei einer klinischen Studie machen die möglichen Teilnehmer jene „gewünschten“
Angaben, welche den Zugang zu der von ihnen erwünschten Gruppe erleichtert. Patient gibt
höhere Belastungswerte an, damit er in die Therapiegruppe kommt.
- Wie valide sind die Angaben eine Reha-Patienten zum Therapieerfolg, wenn dieser die
Absicht hat, einen Antrag auf Frühberentung zu stellen?
- Patienten sind somit im Selbstbericht vor dem treatment „belasteter“,
damit sie in die Experimentalgruppe kommen
• Posttest kann für vorangegangene Intervention sensibilisieren→ verfälscht Antworten
• Lösungen: Fremdurteile, unverfälschbare Maße
7) Reaktivität in Bezug auf die experimentelle Situation
• Nicht das Treatment selbst, sondern andere Aspekte der Situation bewirken Effekte
-z.B. Placebo-Effekt in Medikamentenstudien (alleine der Akt der Verabreichung einer Pille
kann zu Verbesserungen führen)
• Hypothesen (z.B. bezüglich der erwarteten Ergebnisse einer Studie), Erwartungen,
Befürchtungen der VP, ihre Reaktion auf VL, situative demand charachteristics
(Jeder Hinweisreiz wird zur Hypothesenbildung herangezogen und beeinflusst potentiell das
Verhalten)
• Lösungen (partiell) (nach Rosenthal und Rosnow, 1991):
- Unaufdringliche, unverfälschbare Messungen
- Messung erst sehr viel später
- Prätests, die sensibilisieren, Hypothesen nahelegen, vermeiden, ggf.
Solomon-Viergruppenplan.
- Standardisierte Interaktion mit Versuchsleiter oder Versuchsleiter ganz eliminieren.
- Falsche Hypothesen induzieren durch Täuschung (soweit ethisch vertretbar).
- Quasi-Kontrolle durch Versuchspersonen, die das Experiment als Trockenübung durch
Schilderung kennen.(und erklären sollten, wie sie reagieren würden, um den
Erwartungen des Experiments/VL zu entsprechen)
- Bedingungen weniger bedrohlich gestalten, um Vorahnungen zu vermeiden (z.B.
durch Versicherung von Anonymität und Vertraulichkeit)
8) Erwartungen des Experimentators
• auch der Durchführende beeinflusst (besonders bei klinischen Studien, aber auch im Labor)
bewusst oder unbewusst die Ergebnisse; Rosenthal-Effekt:self-fulfilling-prophesies
• Lösungen (Rosenthal und Rosnow, 1991):
- mehrere Untersuchungsleiter
- Beobachtung der Untersuchungsleiter
- Doppelblinduntersuchungen (oder Dreifachblinduntersuchungen) (die das Treatment
verabreichende Person kennt die Hypothesen nicht)
- Minimiere Kontakt mit VP
- Einsatz von Kontrollgruppen
9) Neuheiten und Unterbrechungen
•Veränderungen zum „normalen Leben“ können schon einen Einfluss auf die Daten haben
(z.B. Hervorrufen von Aufregung, Enthusiasmus)
• Hawthorne-Studie (Mayo, 1930,1933)
- jegliche Veränderung am Arbeitsplatz führte zu einer Verbesserung der
Arbeitsleistung
- Teilnahme an einer Studie erhöht die Aufmerksamkeit
10) Kompensatorische Gleichstellung
Aus dem Wunsch nach sozialer Gerechtigkeit heraus werden z.B. vom Klinikpersonal
Probanden in der Kontrollgruppe besser behandelt als Probanden in der Experimentalgruppe.
Die bessere Betreuung der Personen in der KG soll einen „Ausgleich“ für die Verweigerung
des Treatments darstellen.
→ Folge: Nivellierung der Effekte
• Lösung: Aufklärung des Klinikpersonals über den Sinn und Zweck der Untersuchung, gute
Verblindung (VP weiß nicht welcher Bedingung sie zugeordnet wurde; dasselbe gilt für
Datenerheber-und auswerter), Kontrollgruppe erhält eine Placebo-Therapie etc.
11) Kompensatorische Rivalität
Wenn das Design und die Zuordnung zu Experimental- und Kontrollgruppe bekannt ist,
strengen sich eventuell die Probanden in der Kontrollgruppe übermäßig an
- Beispiel: Probanden in einer technisch schlechter ausgestatteten Gruppe bemühen sich
intensiv, die technischen Nachteile durch innovative Maßnahmen auszugleichen.
(Verstärkte Anstrengungen in der Produktion haben beispielsweise schon zum Tod
von Versuchspersonen geführt: Steam drill vs. John Henry.)
• Problem tritt häufiger im A&O-Bereich auf, kann aber auch beispielsweise beim Vergleich
von Schulungsmaßnahmen auftreten.
•Lösungsversuche: Qualitative Interviews; Leistungen vor dem Experiment?????
12) Nachtragende und demoralisierte Teilnehmer
-
Probanden, welche nicht in der Wunschgruppe oder Experimentalgruppe sind,
reagieren „negativ“ im weiteren Verlauf der Untersuchung
z.B. bei Weiterbildungsprogramm, ABM-Maßnahmen, einem zusätzlichen
Therapieangebot etc.
Lösung: Transparenz bei der Zuordnung, Bildung von Wartekontrollgruppen, weitere
Angebote nach Ende der Studie.
13) Treatmentdiffusion
- Verwässerung der Treatment durch Wechsel zwischen den Treatment- Gruppen oder durch
Übernahme von Behandlungselementen in der Kontrollgruppe (durch Teilnehmer oder VL)
- z.B. Patienten einer Station oder Studierende eines Semesters
Beispiel: Bei einer Therapievergleichsstudie trennt der Therapeut die verschiedenen
Therapieformen im Laufe der Studie nicht mehr klar voneinander.
Lösungen:
- Verschiedene Versuchsleiter für die unterschiedlichen Treatments,
- räumliche oder zeitliche Trennung.
- Kontrolle der implementierten Therapie, des Treatments
Zusammenfassung Konstruktvalidität
Der Forscher sollte
- über die Definition der Konstrukte nachdenken
- diese von anderen relevanten auch empirisch absetzen
- entscheiden, wie die Konstrukte gemessen bzw. repräsentiert werden sollen
- möglichst mit Hilfe multipler Operationalisierungen und
- multipler Methoden (Vermeidung von singe-method-bias)
- nach Analyse der Daten:
- überdenken, in welchem Maße das ursprünglich konzeptualisierte Konstrukt umgesetzt
wurde
- postexperimentelle Spezifizierungen der Konstrukte bedenken
Vertiefung: Methoden zur Prüfung der Konstruktvalidität der Ergebnisvariablen
• Wird mit Hilfe der ausgewählten Messinstrumente das zugrunde liegende
theoretische Konstrukt valide erfasst? Die erfassten Werte für das Konstrukt sollten
unabhängig vom verwendeten Instrument sein. Diese ist gegeben, wenn mit Hilfe
verschiedener Testverfahren identische (ähnliche) Ergebnisse ermittelt werden.
- z.B.: Konstruktvalidität ist hoch, wenn die Ergebnisse eines Schulleistungstest
mit anderen Schulleistungstests oder den Schulnoten hoch korrelieren
• Die Konstruktvalidität kann in konvergente und diskriminante Validität
unterteilt werden.
• Bei der Bewertung der Konstruktvalidität muss die konvergente und die
diskriminante Validität diskutiert werden.
Konvergente Validität
• Korrelieren die Ergebnisse eines (eventuell neuen) Testverfahrens mit den Messdaten
anderer Tests, welche bereits validiert sind?
• Wenn davon ausgegangen werden kann, dass ein schon bekannter Test das Konstrukt valide
erfasst, muss einer neuer Test, eine eigene Entwicklung, hoch mit diesem korrelieren.
• Im Rahmen der Testkonstruktion sollten Items eines Inhaltsgebietes, einer Skala, hoch mit
dem Skalenwert (Faktor) korrelieren – analog zur konvergenten Validität.
Kommunalität oder
Indikatorreliabilität=
Anteil der Varianz der
Variable, die durch den
Faktor erklärt wird
Ladung=Korrelation der Variable mit dem Faktor
Diskriminante Validität
• Die Ergebnisse beispielsweise eines neuen Testverfahrens sollten mit den Ergebnissen
anderer Testverfahren, welche ein anderes Konstrukt erfassen, nur gering korrelieren.
• Auch sollte es nur eine geringe Korrelation zwischen den Skalen eines
Fragebogens geben, welche unterschiedliche Konstrukte erfassen.
• z.B.: Bei einem Fragebogen zur Lehrevaluation sollte nur eine geringe Korrelation zwischen
den Skalen „Sympathie für den Dozenten“ und „Organisation der Veranstaltung“ bestehen.
• Die durchschnittlich erfasste Varianz der einzelnen Variablen (Items) durch den Faktor
sollte größer sein als die maximale gemeinsame Varianz mit den anderen Faktoren (max r2,
Fornell-Larcker-Ratio>1).
• Sollte dies nicht der Fall sein, muss davon ausgegangen werden, dass die beiden betroffenen
Faktoren das gleiche Konstrukt beschreiben.
• Zwei Skalen -> ein Konstrukt?
Weitere Spezifizierung der Konvergenten Validität im Überblick:
Konvergente Validität
Inhaltsvalidität
Kriteriumsvalidität
Kongruente Validität
Prädiktive Validität
Inhaltsvalidität
• Die Inhaltsvalidität eines Tests oder Messverfahrens ist gut, wenn bei der Messung eines
zugrunde gelegten psychologischen Konstrukts alle vorhandenen Aspekte erhoben werden.
• Werden nur Teilbereiche eines Konstrukts erhoben, so ist der Test nicht inhaltsvalide.
• Bsp.: Test für Erreichung des Lernziels: Kopfrechnen mit ein- und zweistelligen Zahlen.
Kriteriumsvalidität (zur Überprüfung der konvergenten Validität)
• Die Kriteriumsvalidität wird durch die Korrelation / den Zusammenhang zwischen dem
jeweiligen Messinstrument mit anderen, bereits etablierten Instrumenten, den externen
Kriterien, erfasst.
• Mit Hilfe der Kriteriumsvalidität kann empirisch überprüft werden, ob ein Instrument jenes
Merkmal erfasst, was es zu erfassen vorgibt.
• Beispiel: Korrelation eines selbst entwickelten IQ-Tests mit evaluierten Verfahren (z.B.
IST-2000)
- Nachteil: Wie wurde die Kriteriumsvalidität des IST-2000 überprüft?
• Die Kriteriumsvalidität kann über zwei Arten der Kriteriumsvalidität erfasst werden:
- Kongruente Validität (Übereinstimmungsvalidität)
- prädiktive Validität (prognostische Validität)
Kongruente Validität (Übereinstimmungsvalidität)
Die Validität eines Messverfahrens wird durch den Vergleich von durch das Messverfahren
ermittelten Werten mit durch ein weiteres Verfahren (Aussenkriterum) erhobenen Werten
überprüft.
• Die Überprüfung sollte möglichst zeitgleich erfolgen.
• Nachteil / methodisches Problem:
- Die Validität des Kriteriums muss gewährleistet sein.
- Falls beide Messverfahren hoch miteinander korrelieren: Wieso wurde z.B. ein zweiter
IQ-Test entwickelt, welcher identische Inhalte misst?
(Eventuell ein kürzerer Test, eine kostengünstigeres Messverfahren, paralleler Test.)
Prädiktive/Prognostische Validität
• Falls mit den Ergebnissen der Messung spätere Ereignisse /Zustände vorhergesagt werden
können, kann die prädiktive Validität über den Vergleich mit einem Aussenkriterium
ermittelt werden.
• Beispiel: Verfahren zur Studieneignung im Fach Psychologie
- Die Prognose über einen Eignungstest vor dem Studium kann mit den
Diplomnoten/Studiendauer etc. verglichen werden.
• Nachteile / methodische Probleme:
- Wenn das Eignungsverfahrens den Zugang zum Studienplatz einschränkt -> wie kann
überprüft werden, ob die abgewiesenen Bewerber nicht doch gute Studierende
geworden wären?
- Ist die Mitteilung des Messungsergebnisses (z.B. in einem Assessment Center) nicht
schon eine Intervention? (Sensibilisierung)
Externe Validität
Die Frage nach der externen Validität ist die Frage danach, ob ein Kausalschluss auch
bestehen bleibt, wenn Personen Settings, Outcomes und Treatments variiert werden.
Arten der Generalisierung des kausalen Zusammenhangs
- von einer Population auf umfassendere Population
(z.B. Reha-Patienten einer Klinik in Baden-Württemberg auf alle Reha-Patienten in
Deutschland)
- von der Stichprobe auf eine einzelne Person oder Teilstichprobe
(z.B. von allen Reha-Patienten auf Patientinnen in der Psychosomatik oder ist z.B.
Therapieform, die Heilung einer Krebsart verspricht auch auf konkrete Person mit Krebs
anwendbar?)
- von einer Population auf eine andere Population auf ähnlichem Aggregationsniveau
(z.B. finnisches Schulsystem auf Deutschland übertragen oder Suchtbehandlung in
Berlin auf Suchtbehandlung im Saarland
- auf eine ähnliche oder unähnliche Gruppe von Personen
(von Alkoholabhängigen in BW auf Alkoholabhängige in MVP (ähnliche Gruppe))
(von alten kardiologischen Patienten auf junge psychosomatische Patientinnen)
- von der Zufallsstichprobe auf andere Mitglieder der Population.
- Oftmals inkrementell: Nur einzelne, vermutlich irrelevante Aspekte variieren.
(Nichtraucherschutzmaßnahme in öffentlichen Gebäuden übertragen auf privaten
Sektor.)
2 gegensätzliche wissenschaftliche Standpunkte:
1) Externe Validität handelt von Fällen, die nicht im Experiment überprüft wurden
und auch nicht mehr überprüft werden können
2) Wissenschaftler sollten sich nur um die ursprünglich gestellten Fragen kümmern,
alles weitere ist Sache weiterer Forschung
Viele Studien realisieren
Multiple Treatments,
- Treatments unterschiedlicher Dosierung
Outcomes,
- Selbstbeobachtung, Fremdbeobachtung, physiologische Maße
Personenstichproben,
- Geschlecht
Settings
- Schulen, Kliniken, etc.
- Grenzen durch Stichprobengrößenerfordernisse, Komplexität des Versuchsplans,
Statistische Power zur Entdeckung von Interaktionen.
- Gesamtschau über unterschiedliche Studien.
Probleme bei der praktischen Umsetzung:
- Beachtung aller Kriterien der externen Validität logistisch und finanziell unmöglich
- viele verschiedene Gruppen (viele Interaktionen): Probleme der statistischen Validität
→ Der Versuch externe Validität zu erreichen führt oft zu Konflikten mit anderen Arten
der Validität
→ Generalisierbarkeit lässt sich nur über Replikationen und/oder Metaanalysen erreichen
Gefährdung der externen Validität
Das Konzept der externen Validität ist eng verwandt mit der statistischen Frage nach
Interaktion
→ Bestehen Interaktionen deutet dies darauf hin, dass der Effekt nicht generalisierbar ist
1. Interagiert der kausale Zusammenhang mit Personenmerkmalen?
Beispiele:
- Psychologiestudierende
- Geschlecht
- Andere Medikamente für Weiße als für Schwarze effektiv.
2. Interagiert der kausale Zusammenhang mit Treatmentfeatures?
- z.B. nur die Kombination aus Medikation und Psychotherapie wirkt, nicht aber Medikation
ODER Psychotherapie als einzelnes Element in einer Behandlung
- Reichweite der Implementierung (soziale Programme)
- Z.B. Gesundheitskampagne nur wirksam, wenn überregional implementiert;
lokale Kampagnen wirkungslos
3. Ist der Zusammenhang nur mit bestimmten Outcome-Variablen belegbar?
- Weiterbildungsmaßnahme zur Erhöhung der Kundenzufriedenheit wirkt nur auf
Kundenzufriedenheit in der Beurteilung durch dritte Beobachter, nicht aber auf
Selbstbericht der Kunden.
4. Interagiert der Zusammenhang mit dem Setting?
- z.B. neue Unterrichtsmaßnahme wirkt nur im Labor und nicht im schulischen „Alltag“.
- Psychotherapiestudien untypisch für Therapiealltag (Weisz, Weiss, & Donenberg, 1992)
- Unterschiede zwischen Schulen, Kliniken, Betrieben.
5. Ist die Vermittlung des kausalen Zusammenhangs kontextspezifisch?
- z.B. Kostenreduktion in Klinik A vermittelt über Personalkosten, in Klinik B über
Leistungskürzung.
Konstanz der Effektgröße vs. Konstanz des Zusammenhanges
• Können in verschiedenen Studien identische Effektgrößen ermittelt werden? (Robustheit des
Effektes)
- Effektgröße manchmal wichtig: z.B. Anzahl Todesfälle oder neues Krebsmedikament,
das nur um ein geringes wirksamer ist als schon bekanntes; Leben um 2 Monate
verlängern
• Ist die Richtung des Zusammenhanges identisch?
- Dieselbe Richtung oft wichtiger: z.B. Gesellschaftliche Maßnahmen, die ohnehin nicht
auf lokale Besonderheiten hin adaptiert werden können. (Erhöhung des
Sozialhilfesatzes: allgemein positiver Effekt, aber Effekt in einer Stadt mit vielen
Arbeitslosen größer als in einer Stadt mit geringer Arbeitslosenzahl)
Externe Validität und Zufallsstichproben
• Zufallsstichproben garantieren, dass
- derselbe durchschnittliche Effekt in allen anderen Zufallsstichproben aus der
Population erwartet werden darf,
- derselbe durchschnittliche Effekt in der Gesamtpopulation erwartet werden darf.
• Gilt auch für Zufallsstichproben von settings
- Kliniken, Schulen, etc.
- logistische Probleme.
• Treatments und Outcomes
• Zufallsstichproben sind oftmals nicht realisierbar
- Datenschutz, Kosten, sonstige Barrieren.
- Z.B. Kliniken Deutschlands; Zufallsstichprobe geographisch weit
gestreut.
• Population nicht definiert (Treatment, Outcomes).
• Vorteile, wo machbar, sehr groß.
Externe Validität und zielgerichtetes Ziehen von Stichproben
Es werden gezielt Personen ausgesucht, die sich in Merkmalen unterscheiden, die als wichtig
für den Kausalzusammenhang erachtet werden; ABER: Man weiß vielleicht nicht, welche
Merkmale besonders wichtig sind
• Diversität von Stichprobe durch zielgerichtetes Ziehen
- Ethnische Zugehörigkeit, Geschlecht
- Ermöglicht Test von Generalisierbarkeit im Rahmen der statistische Testpower,
- Einschätzung des durchschnittlichen Gesamteffekts (durch Zufallsstichprobe besser
möglich), selbst wenn Testpower zu gering, um Interaktion zu prüfen.
- Konflikt mit Validität der statistischen Schlußfolgerung.
• Diversität von settings (z.B. Privatschulen und öffentliche Schulen), treatments und
outcomes (wird üblicherweise umgesetzt)
- Oft durch Zusammenschau über verschiedene Studien
Externe Validität und Konstruktvalidität
• Beides sind Generalisierungen.
• Konstruktvalidität auf Konstrukte, nicht auf kausalen Zusammenhang.
- Interpretieren wir den Zusammenhang auf Konstruktebenekorrekt?
• Externe Validität auf den kausalen Zusammenhang für andere Personen, settings, treatments,
outcomes.
-
Ist der kausale Zusammenhang stabil, oder zumindestgleichgerichtet, wenn UTOS
variiert.
Externe, interne, statistische und Konstruktvalidität: Trade-offs und Prioritäten
• Externe und interne Validität verhalten sich manchmal gegenläufig.
• Entscheidungen der Forscher darüber, wie Ressourcen alloziert werden:
- z.B. zugunsten randomisierter Zuweisung zu den treatments/settings (interne Validität),
- Zugunsten der Diversität untersuchter Stichproben/treatments/settings (externeValidität).
- Unterschiedliche Schwerpunkte in angewandter (externe und Konstruktvalidität der
Ergebnisvariablen) und Grundlagenforschung (interne und Konstruktvalidität der Ursache).
• Ebenfalls trade-offs zwischen statistischer Validität und externer Validität
- Homogenität versus Heterogenität der Stichprobe.
• Konstruktvalidität benötigt eine intensive Auseinandersetzung mit der Definition der
Konstrukte und mit der Übereinstimmung der Untersuchungselemente mit den Konstrukten.
Welche Validität die wichtigste ist, ist also stark vom Kontext abhängig. Oftmals ist es auch
so, dass im Laufe eines Forschungsprojekts verschiedene Arten der Validität am wichtigsten
sind z.B.
1.) eine interessante Beziehung zwischen 2 Variablen wird festgestellt
2.) weiterer Forschung, um die Größe und Abhängigkeit der Beziehung herauszufinden
(statistische Validität)
3.) Ist die Beziehung kausal? (interne Validität)
4.) Genaue Beschreibung der Abhängigkeit (Konstruktvalidität)
5.) Die Grenzen der Beziehung (externe Validität)
Im Laufe eines Forschungszweigs sollten also alle Validitäten einmal im Mittelpunkt stehen