3. Externe Validität und Konstruktvalidität Wichtiger Begriff: Trade-off: Austausch eines „Dings“ durch ein anderes; vor allem die Preisgabe eines Vorteils oder Nutzens gegen einen noch größeren Vorteil oder Nutzen 1) Konstruktvalidität Konstruktvalidität bezieht sich auf die Zulässigkeit von Aussagen aufgrund der Operationalisierung über das gesamte dahinter liegende Konstrukt. Dies ist in der Regel dann der Fall, wenn davon ausgegangen werden kann, dass der Bedeutungsumfang des Konstruktes präzise und nachvollziehbar abgebildet ist. 2 zentrale Probleme der Konstruktvalidität: 1) Verstehen/Definition/Benennung des Konstrukts 2) Erfassen des Konstrukts (besonders in Sozialwissenschaften schwierig, da hier keine natürlichen Maßeinheiten gegeben sind (Depression) wie in Naturwissenschaften (Gewicht)) Aber: Forschung kommt nicht ohne Konstrukte aus 3 Gründe für Bedeutsamkeit von Konstruktvalidität: 1) Konstrukte als zentrales Maß zur Verbindung zwischen den im Experiment genutzten Operationalisierungen und a) der zugehörigen Theorie b) der Sprachgemeinschaft, die Ergebnisse praktisch umzusetzen versucht 2) Konstruktbeschreibungen beinhalten oft soziale, politische und ökonomische Implikationen (z.B. Definition von Arbeitslosigkeit; gilt jemand, der an Trainingsmaßnahme des Arbeitsamtes teilnimmt noch als arbeitslos oder nicht?!) 3) Erschaffung und Schutz von grundlegenden Konstrukten ist elementare Aufgabe jeder Wissenschaft (z.B. Entwicklung des Periodensystems in der Chemie oder Benennung der Bestandteile von Wasser) 1) Verstehen/Definition/Benennung des Konstrukts Warum Konstruktrückschlüsse problematisch sind Benennung von Dingen allgemeines wissenschaftliches Problem, weil Namen Kategoriezugehörigkeiten widerspiegeln, die wiederum in Beziehung zu anderen Theorien oder Konzepten stehen. Schritte zur Konstruktvalidität: 1) Eindeutige Bestimmung von Personen, Settings, Treatments und Outcomes, die von Interesse sind 2) Sorgfältige Auswahl von Fällen, die zu diesen Konstrukten passen 3) Bewerten wie gut Konstrukt und Einzelfall zusammenpassen 4) entsprechende Korrektur der Konstruktbeschreibungen Problem bei der Benennung: Jedes Konstrukt hat viele Charakteristika, von denen manche zentraler sind als andere und deswegen prototypisch genannt werden. (Beispiel: charakteristisch für einen Baum ist, dass es sich um eine große, hölzerne Pflanze handelt, mit einem dicken Stamm; dicker Stamm und Höhe unterscheidet Bäume von Büschen, aber: es gibt auch Büsche, die größer sind als Bäume) → Anwendung von pattern-matching (Vergleich der prototypischen Merkmale des Gegenstandes mit intuitivem prototypischen Kategoriebegriff), um zu entscheiden, ob ein gegebener Fall zu den prototypischen Charakteristika passt Es ist jedoch oft schwierig zu entscheiden, welche Charakteristika eher peripher und welche prototypisch sind, da dies u.a. vom Kontext und von der Sprachgemeinschaft abhängt. (Beispiel: Die Aborigines haben Kategorie für „Frauen, Feuer und gefährliche Dinge“, während diese Begriffe im Englischen/Deutschen nicht einer Kategorie zuzuordnen sind) In den Sozialwissenschaften ist dieser Entscheidungsprozess noch schwieriger, da viele Konstrukte noch untersucht und entdeckt werden und somit starke Übereinstimmungen über prototypische Konstruktcharakteristika eher die Ausnahme sind. Außerdem sind die Einheiten, mit denen sich Sozialwissenschaftler beschäftigen abstrakter Natur (z.B. Gewalt, Absicht, Entscheidungen…) → Forscher wählen während des Forschungsprozesses aus, welche Merkmale prototypisch sind und welche nicht → Bedenkt man all diese Schwierigkeiten, so wird deutlich, dass es niemals möglich ist, eine eins-zu-eins Beziehung zwischen Operationalisierungen und den zugehörigen Konstrukten zu erstellen Statt Versuch der Herstellung einer eins-zu-eins Beziehung sollte man: 1) ein Konstrukt auf unterschiedliche Weisen operationalisieren (innerhalb einer Studie und über mehrere Studien hinweg) 2) Prüfen, ob Konstrukt und Operationalisierung wirklich zusammenpassen 3) Debatte zulassen, ob Operationalisierung und Konstrukt wirklich zusammenpassen, da sowohl Operationalisierung als auch Konstrukt sozial konstruiert sind 2) Erfassen des Konstrukts Konstruktvalidität wird meist für die abhängigen Variablen diskutiert, aber sie muss auch für Personen (einfachste Unterscheidung: z.B.Trennung nach Geschlecht; schwieriger z.B. Schizophrenie: unterschiedliche Kategorisierung, je nachdem welcher Test angewendet wird) Setting (oft keine genaue Beschreibung; „the Psychology Department Psychological Services Center“ – keine Aussage über Größe, Personal, Klientel…) Treatment (Beispiel: Psychotherapie; oft nur Unterscheidung nach VT, GT, ST ohne genaue Beschreibungen der Therapieform (Gründe: Aufwand und mangelnde Anzahl akzeptierter Messverfahren für Psychotherapie) definiert und diskutiert werden. Von allen einzelnen Aspekten sollten sich Rückschlüsse auf die zugrundeliegenden Konstrukte ziehen lassen Gefährdungen der Konstruktvalidität 1) Ungenügende Analyse der Konstrukte Ein Ungleichgewicht zwischen Operationalisierung und Konstrukt kann durch die inadäquate Analyse der Konstrukte einer Studie entstehen. → Voraussetzung für Konstruktvalidität ist Konstruktexplikation Beispiele: 1) Das Konstrukt „Aggressivität“; wird meist beschrieben als beabsichtigtes Schädigen von anderen Personen in Verbindung mit einem gesundheitsschädlichen Resultat. Man nehme nun 3 Situationen an: 1) Ein Junge hat ein blaues Auge, weil ein anderer versehentlich mit ihm zusammengestoßen ist. 2) Ein Junge hat ein blaues Auge, weil ein anderer ihn geschlagen hat, um dessen Süßigkeiten zu bekommen (instrumentelle Aggression) oder um ihm einfach so zu schaden (nicht instrumentelle Aggression). 3) Die verbale Bedrohung eines Kindes, dass es ein anderes Kind schlagen werde, wenn es die Süßigkeiten nicht hergebe. Nach der oben genannten Definition handelte es sich nur bei Situation 2 um aggressives Verhalten 2) Patientenzufriedenheit Zufriedenheit der Patienten mit der Organisation, mit der Patient-TherapeutInteraktion und mit der Unterbringung Aber nicht: Zufriedenheit mit touristischem Angebot in Umgebung, etc. 3) Selbstwertgefühl Das allgemeine Selbstwertgefühl (schwankend) ist nicht Mittelwert bereichsspezifischer Selbstwertgefühle (stabiler). Nach Mark (2000) gibt es 4 häufig auftretende Fehler/Gefahren bei der Beschreibung der Konstrukte: 1) nur sehr allgemeine Konstrukte beschrieben werden, - z.B.: Studieneignung, Verhaltenstherapie 2) Zu spezifisch erhoben wird, - z.B.: nur die Erhebung der mathematischen Fähigkeiten zur Erfassung der Studieneignung im Fach Psychologie 3) falsche Messungen für die Konstrukte verwendet werden oder - z.B. Intelligenztest bei Kindern von Immigranten als Maß der kognitiven Entwicklung. 4) mehrere Konstrukte zugrunde liegen, wobei nur ein Konstrukt diskutiert wird. - z.B. Studierfähigkeit im Fach Psychologie besteht aus Intelligenz, Motivation, Kommunikationsfähigkeiten etc. 2) Konfundierungen zwischen verschiedene relevanten Konstrukten • durch ungenügende Erfassung aller zugrunde liegenden und intervenierenden Konstrukte gibt es möglicherweise nicht erkannte Zusammenhänge zwischen den Konstrukten • es wurden nicht alle relevanten Variablen / Konstrukte erhoben • z.B. Untersuchung zur Anzahl von Psychologen in Führungspositionen in der freien Wirtschaft - relativ wenig Psychologen in Führungspositionen in der freien Wirtschaft - aber unter den Psychologen gibt es einen hohen Frauenanteil bei den Absolventen - Findet nun in der freien Wirtschaft eine Benachteiligung der Psychologen oder der Frauen statt? - Statt Beruf eher Geschlecht als relevantes Personenkonstrukt? 3) mono-operation-bias • Nur eine Operationalisierung des Ergebniskonstrukts oder des Treatmentkonstrukts. • Das erhöht das Risiko einer inadäquaten Realisierung des Konstrukts. • z.B.: Erfolg einer Schulungsmaßnahme - es wird nur in einer Filiale eines Betriebes eine Schulungsmaßnahme durchgeführt und die Erfolge dieser Maßnahme werden nur mit einer weiteren Filiale verglichen (=Kontrollgruppe) - Besser wären multiple Maßnahmen mit unterschiedlichen Dozenten und Betrieben: Gibt es hier Unterschiede, so ist die Schulung vielleicht kein einheitliches Konstrukt. - Maße der sozialen Kategorisierung. 4) mono-method-bias • Die Daten werden nur mit einer Erhebungsmethode erhoben. - Z.B. Nur Selbstberichtdaten. • Die Methode der Datenerhebung (Fragebogen, Interview, Internetbefragung etc.) hat aber möglicherweise einen Einfluss auf die Ergebnisse der Messung • Lösung: Nach Möglichkeit immer mehrere Datenquellen (Selbstbeobachtung,Fremdbeobachtung, Fragebogen, etc.) verwenden. • Problem: Je mehr Instrumente, desto höher ist der Aufwand. Welche Methoden der Datenerhebung sind sinnvoll und welche sind notwendig zum Erreichen einer guten Konstruktvalidität? 5) Treatment erhöht Sensitivität für die Struktur der untersuchten Konstrukte z.B. Untersuchung zum Antisemitismus - Kontrollgruppe erhält nur Fragebogen - Experimentalgruppe erhält achtstündige Informationsveranstaltung und anschließend einen Fragebogen - durch erhöhte Sensitivität der Probanden in der EG werden differenziertere Antworten gegeben, das verändert das gemessene Konstrukt. 6) Selbstberichte/Protokolle sind auch abhängig von der Patientenmotivation - z.B. bei einer klinischen Studie machen die möglichen Teilnehmer jene „gewünschten“ Angaben, welche den Zugang zu der von ihnen erwünschten Gruppe erleichtert. Patient gibt höhere Belastungswerte an, damit er in die Therapiegruppe kommt. - Wie valide sind die Angaben eine Reha-Patienten zum Therapieerfolg, wenn dieser die Absicht hat, einen Antrag auf Frühberentung zu stellen? - Patienten sind somit im Selbstbericht vor dem treatment „belasteter“, damit sie in die Experimentalgruppe kommen • Posttest kann für vorangegangene Intervention sensibilisieren→ verfälscht Antworten • Lösungen: Fremdurteile, unverfälschbare Maße 7) Reaktivität in Bezug auf die experimentelle Situation • Nicht das Treatment selbst, sondern andere Aspekte der Situation bewirken Effekte -z.B. Placebo-Effekt in Medikamentenstudien (alleine der Akt der Verabreichung einer Pille kann zu Verbesserungen führen) • Hypothesen (z.B. bezüglich der erwarteten Ergebnisse einer Studie), Erwartungen, Befürchtungen der VP, ihre Reaktion auf VL, situative demand charachteristics (Jeder Hinweisreiz wird zur Hypothesenbildung herangezogen und beeinflusst potentiell das Verhalten) • Lösungen (partiell) (nach Rosenthal und Rosnow, 1991): - Unaufdringliche, unverfälschbare Messungen - Messung erst sehr viel später - Prätests, die sensibilisieren, Hypothesen nahelegen, vermeiden, ggf. Solomon-Viergruppenplan. - Standardisierte Interaktion mit Versuchsleiter oder Versuchsleiter ganz eliminieren. - Falsche Hypothesen induzieren durch Täuschung (soweit ethisch vertretbar). - Quasi-Kontrolle durch Versuchspersonen, die das Experiment als Trockenübung durch Schilderung kennen.(und erklären sollten, wie sie reagieren würden, um den Erwartungen des Experiments/VL zu entsprechen) - Bedingungen weniger bedrohlich gestalten, um Vorahnungen zu vermeiden (z.B. durch Versicherung von Anonymität und Vertraulichkeit) 8) Erwartungen des Experimentators • auch der Durchführende beeinflusst (besonders bei klinischen Studien, aber auch im Labor) bewusst oder unbewusst die Ergebnisse; Rosenthal-Effekt:self-fulfilling-prophesies • Lösungen (Rosenthal und Rosnow, 1991): - mehrere Untersuchungsleiter - Beobachtung der Untersuchungsleiter - Doppelblinduntersuchungen (oder Dreifachblinduntersuchungen) (die das Treatment verabreichende Person kennt die Hypothesen nicht) - Minimiere Kontakt mit VP - Einsatz von Kontrollgruppen 9) Neuheiten und Unterbrechungen •Veränderungen zum „normalen Leben“ können schon einen Einfluss auf die Daten haben (z.B. Hervorrufen von Aufregung, Enthusiasmus) • Hawthorne-Studie (Mayo, 1930,1933) - jegliche Veränderung am Arbeitsplatz führte zu einer Verbesserung der Arbeitsleistung - Teilnahme an einer Studie erhöht die Aufmerksamkeit 10) Kompensatorische Gleichstellung Aus dem Wunsch nach sozialer Gerechtigkeit heraus werden z.B. vom Klinikpersonal Probanden in der Kontrollgruppe besser behandelt als Probanden in der Experimentalgruppe. Die bessere Betreuung der Personen in der KG soll einen „Ausgleich“ für die Verweigerung des Treatments darstellen. → Folge: Nivellierung der Effekte • Lösung: Aufklärung des Klinikpersonals über den Sinn und Zweck der Untersuchung, gute Verblindung (VP weiß nicht welcher Bedingung sie zugeordnet wurde; dasselbe gilt für Datenerheber-und auswerter), Kontrollgruppe erhält eine Placebo-Therapie etc. 11) Kompensatorische Rivalität Wenn das Design und die Zuordnung zu Experimental- und Kontrollgruppe bekannt ist, strengen sich eventuell die Probanden in der Kontrollgruppe übermäßig an - Beispiel: Probanden in einer technisch schlechter ausgestatteten Gruppe bemühen sich intensiv, die technischen Nachteile durch innovative Maßnahmen auszugleichen. (Verstärkte Anstrengungen in der Produktion haben beispielsweise schon zum Tod von Versuchspersonen geführt: Steam drill vs. John Henry.) • Problem tritt häufiger im A&O-Bereich auf, kann aber auch beispielsweise beim Vergleich von Schulungsmaßnahmen auftreten. •Lösungsversuche: Qualitative Interviews; Leistungen vor dem Experiment????? 12) Nachtragende und demoralisierte Teilnehmer - Probanden, welche nicht in der Wunschgruppe oder Experimentalgruppe sind, reagieren „negativ“ im weiteren Verlauf der Untersuchung z.B. bei Weiterbildungsprogramm, ABM-Maßnahmen, einem zusätzlichen Therapieangebot etc. Lösung: Transparenz bei der Zuordnung, Bildung von Wartekontrollgruppen, weitere Angebote nach Ende der Studie. 13) Treatmentdiffusion - Verwässerung der Treatment durch Wechsel zwischen den Treatment- Gruppen oder durch Übernahme von Behandlungselementen in der Kontrollgruppe (durch Teilnehmer oder VL) - z.B. Patienten einer Station oder Studierende eines Semesters Beispiel: Bei einer Therapievergleichsstudie trennt der Therapeut die verschiedenen Therapieformen im Laufe der Studie nicht mehr klar voneinander. Lösungen: - Verschiedene Versuchsleiter für die unterschiedlichen Treatments, - räumliche oder zeitliche Trennung. - Kontrolle der implementierten Therapie, des Treatments Zusammenfassung Konstruktvalidität Der Forscher sollte - über die Definition der Konstrukte nachdenken - diese von anderen relevanten auch empirisch absetzen - entscheiden, wie die Konstrukte gemessen bzw. repräsentiert werden sollen - möglichst mit Hilfe multipler Operationalisierungen und - multipler Methoden (Vermeidung von singe-method-bias) - nach Analyse der Daten: - überdenken, in welchem Maße das ursprünglich konzeptualisierte Konstrukt umgesetzt wurde - postexperimentelle Spezifizierungen der Konstrukte bedenken Vertiefung: Methoden zur Prüfung der Konstruktvalidität der Ergebnisvariablen • Wird mit Hilfe der ausgewählten Messinstrumente das zugrunde liegende theoretische Konstrukt valide erfasst? Die erfassten Werte für das Konstrukt sollten unabhängig vom verwendeten Instrument sein. Diese ist gegeben, wenn mit Hilfe verschiedener Testverfahren identische (ähnliche) Ergebnisse ermittelt werden. - z.B.: Konstruktvalidität ist hoch, wenn die Ergebnisse eines Schulleistungstest mit anderen Schulleistungstests oder den Schulnoten hoch korrelieren • Die Konstruktvalidität kann in konvergente und diskriminante Validität unterteilt werden. • Bei der Bewertung der Konstruktvalidität muss die konvergente und die diskriminante Validität diskutiert werden. Konvergente Validität • Korrelieren die Ergebnisse eines (eventuell neuen) Testverfahrens mit den Messdaten anderer Tests, welche bereits validiert sind? • Wenn davon ausgegangen werden kann, dass ein schon bekannter Test das Konstrukt valide erfasst, muss einer neuer Test, eine eigene Entwicklung, hoch mit diesem korrelieren. • Im Rahmen der Testkonstruktion sollten Items eines Inhaltsgebietes, einer Skala, hoch mit dem Skalenwert (Faktor) korrelieren – analog zur konvergenten Validität. Kommunalität oder Indikatorreliabilität= Anteil der Varianz der Variable, die durch den Faktor erklärt wird Ladung=Korrelation der Variable mit dem Faktor Diskriminante Validität • Die Ergebnisse beispielsweise eines neuen Testverfahrens sollten mit den Ergebnissen anderer Testverfahren, welche ein anderes Konstrukt erfassen, nur gering korrelieren. • Auch sollte es nur eine geringe Korrelation zwischen den Skalen eines Fragebogens geben, welche unterschiedliche Konstrukte erfassen. • z.B.: Bei einem Fragebogen zur Lehrevaluation sollte nur eine geringe Korrelation zwischen den Skalen „Sympathie für den Dozenten“ und „Organisation der Veranstaltung“ bestehen. • Die durchschnittlich erfasste Varianz der einzelnen Variablen (Items) durch den Faktor sollte größer sein als die maximale gemeinsame Varianz mit den anderen Faktoren (max r2, Fornell-Larcker-Ratio>1). • Sollte dies nicht der Fall sein, muss davon ausgegangen werden, dass die beiden betroffenen Faktoren das gleiche Konstrukt beschreiben. • Zwei Skalen -> ein Konstrukt? Weitere Spezifizierung der Konvergenten Validität im Überblick: Konvergente Validität Inhaltsvalidität Kriteriumsvalidität Kongruente Validität Prädiktive Validität Inhaltsvalidität • Die Inhaltsvalidität eines Tests oder Messverfahrens ist gut, wenn bei der Messung eines zugrunde gelegten psychologischen Konstrukts alle vorhandenen Aspekte erhoben werden. • Werden nur Teilbereiche eines Konstrukts erhoben, so ist der Test nicht inhaltsvalide. • Bsp.: Test für Erreichung des Lernziels: Kopfrechnen mit ein- und zweistelligen Zahlen. Kriteriumsvalidität (zur Überprüfung der konvergenten Validität) • Die Kriteriumsvalidität wird durch die Korrelation / den Zusammenhang zwischen dem jeweiligen Messinstrument mit anderen, bereits etablierten Instrumenten, den externen Kriterien, erfasst. • Mit Hilfe der Kriteriumsvalidität kann empirisch überprüft werden, ob ein Instrument jenes Merkmal erfasst, was es zu erfassen vorgibt. • Beispiel: Korrelation eines selbst entwickelten IQ-Tests mit evaluierten Verfahren (z.B. IST-2000) - Nachteil: Wie wurde die Kriteriumsvalidität des IST-2000 überprüft? • Die Kriteriumsvalidität kann über zwei Arten der Kriteriumsvalidität erfasst werden: - Kongruente Validität (Übereinstimmungsvalidität) - prädiktive Validität (prognostische Validität) Kongruente Validität (Übereinstimmungsvalidität) Die Validität eines Messverfahrens wird durch den Vergleich von durch das Messverfahren ermittelten Werten mit durch ein weiteres Verfahren (Aussenkriterum) erhobenen Werten überprüft. • Die Überprüfung sollte möglichst zeitgleich erfolgen. • Nachteil / methodisches Problem: - Die Validität des Kriteriums muss gewährleistet sein. - Falls beide Messverfahren hoch miteinander korrelieren: Wieso wurde z.B. ein zweiter IQ-Test entwickelt, welcher identische Inhalte misst? (Eventuell ein kürzerer Test, eine kostengünstigeres Messverfahren, paralleler Test.) Prädiktive/Prognostische Validität • Falls mit den Ergebnissen der Messung spätere Ereignisse /Zustände vorhergesagt werden können, kann die prädiktive Validität über den Vergleich mit einem Aussenkriterium ermittelt werden. • Beispiel: Verfahren zur Studieneignung im Fach Psychologie - Die Prognose über einen Eignungstest vor dem Studium kann mit den Diplomnoten/Studiendauer etc. verglichen werden. • Nachteile / methodische Probleme: - Wenn das Eignungsverfahrens den Zugang zum Studienplatz einschränkt -> wie kann überprüft werden, ob die abgewiesenen Bewerber nicht doch gute Studierende geworden wären? - Ist die Mitteilung des Messungsergebnisses (z.B. in einem Assessment Center) nicht schon eine Intervention? (Sensibilisierung) Externe Validität Die Frage nach der externen Validität ist die Frage danach, ob ein Kausalschluss auch bestehen bleibt, wenn Personen Settings, Outcomes und Treatments variiert werden. Arten der Generalisierung des kausalen Zusammenhangs - von einer Population auf umfassendere Population (z.B. Reha-Patienten einer Klinik in Baden-Württemberg auf alle Reha-Patienten in Deutschland) - von der Stichprobe auf eine einzelne Person oder Teilstichprobe (z.B. von allen Reha-Patienten auf Patientinnen in der Psychosomatik oder ist z.B. Therapieform, die Heilung einer Krebsart verspricht auch auf konkrete Person mit Krebs anwendbar?) - von einer Population auf eine andere Population auf ähnlichem Aggregationsniveau (z.B. finnisches Schulsystem auf Deutschland übertragen oder Suchtbehandlung in Berlin auf Suchtbehandlung im Saarland - auf eine ähnliche oder unähnliche Gruppe von Personen (von Alkoholabhängigen in BW auf Alkoholabhängige in MVP (ähnliche Gruppe)) (von alten kardiologischen Patienten auf junge psychosomatische Patientinnen) - von der Zufallsstichprobe auf andere Mitglieder der Population. - Oftmals inkrementell: Nur einzelne, vermutlich irrelevante Aspekte variieren. (Nichtraucherschutzmaßnahme in öffentlichen Gebäuden übertragen auf privaten Sektor.) 2 gegensätzliche wissenschaftliche Standpunkte: 1) Externe Validität handelt von Fällen, die nicht im Experiment überprüft wurden und auch nicht mehr überprüft werden können 2) Wissenschaftler sollten sich nur um die ursprünglich gestellten Fragen kümmern, alles weitere ist Sache weiterer Forschung Viele Studien realisieren Multiple Treatments, - Treatments unterschiedlicher Dosierung Outcomes, - Selbstbeobachtung, Fremdbeobachtung, physiologische Maße Personenstichproben, - Geschlecht Settings - Schulen, Kliniken, etc. - Grenzen durch Stichprobengrößenerfordernisse, Komplexität des Versuchsplans, Statistische Power zur Entdeckung von Interaktionen. - Gesamtschau über unterschiedliche Studien. Probleme bei der praktischen Umsetzung: - Beachtung aller Kriterien der externen Validität logistisch und finanziell unmöglich - viele verschiedene Gruppen (viele Interaktionen): Probleme der statistischen Validität → Der Versuch externe Validität zu erreichen führt oft zu Konflikten mit anderen Arten der Validität → Generalisierbarkeit lässt sich nur über Replikationen und/oder Metaanalysen erreichen Gefährdung der externen Validität Das Konzept der externen Validität ist eng verwandt mit der statistischen Frage nach Interaktion → Bestehen Interaktionen deutet dies darauf hin, dass der Effekt nicht generalisierbar ist 1. Interagiert der kausale Zusammenhang mit Personenmerkmalen? Beispiele: - Psychologiestudierende - Geschlecht - Andere Medikamente für Weiße als für Schwarze effektiv. 2. Interagiert der kausale Zusammenhang mit Treatmentfeatures? - z.B. nur die Kombination aus Medikation und Psychotherapie wirkt, nicht aber Medikation ODER Psychotherapie als einzelnes Element in einer Behandlung - Reichweite der Implementierung (soziale Programme) - Z.B. Gesundheitskampagne nur wirksam, wenn überregional implementiert; lokale Kampagnen wirkungslos 3. Ist der Zusammenhang nur mit bestimmten Outcome-Variablen belegbar? - Weiterbildungsmaßnahme zur Erhöhung der Kundenzufriedenheit wirkt nur auf Kundenzufriedenheit in der Beurteilung durch dritte Beobachter, nicht aber auf Selbstbericht der Kunden. 4. Interagiert der Zusammenhang mit dem Setting? - z.B. neue Unterrichtsmaßnahme wirkt nur im Labor und nicht im schulischen „Alltag“. - Psychotherapiestudien untypisch für Therapiealltag (Weisz, Weiss, & Donenberg, 1992) - Unterschiede zwischen Schulen, Kliniken, Betrieben. 5. Ist die Vermittlung des kausalen Zusammenhangs kontextspezifisch? - z.B. Kostenreduktion in Klinik A vermittelt über Personalkosten, in Klinik B über Leistungskürzung. Konstanz der Effektgröße vs. Konstanz des Zusammenhanges • Können in verschiedenen Studien identische Effektgrößen ermittelt werden? (Robustheit des Effektes) - Effektgröße manchmal wichtig: z.B. Anzahl Todesfälle oder neues Krebsmedikament, das nur um ein geringes wirksamer ist als schon bekanntes; Leben um 2 Monate verlängern • Ist die Richtung des Zusammenhanges identisch? - Dieselbe Richtung oft wichtiger: z.B. Gesellschaftliche Maßnahmen, die ohnehin nicht auf lokale Besonderheiten hin adaptiert werden können. (Erhöhung des Sozialhilfesatzes: allgemein positiver Effekt, aber Effekt in einer Stadt mit vielen Arbeitslosen größer als in einer Stadt mit geringer Arbeitslosenzahl) Externe Validität und Zufallsstichproben • Zufallsstichproben garantieren, dass - derselbe durchschnittliche Effekt in allen anderen Zufallsstichproben aus der Population erwartet werden darf, - derselbe durchschnittliche Effekt in der Gesamtpopulation erwartet werden darf. • Gilt auch für Zufallsstichproben von settings - Kliniken, Schulen, etc. - logistische Probleme. • Treatments und Outcomes • Zufallsstichproben sind oftmals nicht realisierbar - Datenschutz, Kosten, sonstige Barrieren. - Z.B. Kliniken Deutschlands; Zufallsstichprobe geographisch weit gestreut. • Population nicht definiert (Treatment, Outcomes). • Vorteile, wo machbar, sehr groß. Externe Validität und zielgerichtetes Ziehen von Stichproben Es werden gezielt Personen ausgesucht, die sich in Merkmalen unterscheiden, die als wichtig für den Kausalzusammenhang erachtet werden; ABER: Man weiß vielleicht nicht, welche Merkmale besonders wichtig sind • Diversität von Stichprobe durch zielgerichtetes Ziehen - Ethnische Zugehörigkeit, Geschlecht - Ermöglicht Test von Generalisierbarkeit im Rahmen der statistische Testpower, - Einschätzung des durchschnittlichen Gesamteffekts (durch Zufallsstichprobe besser möglich), selbst wenn Testpower zu gering, um Interaktion zu prüfen. - Konflikt mit Validität der statistischen Schlußfolgerung. • Diversität von settings (z.B. Privatschulen und öffentliche Schulen), treatments und outcomes (wird üblicherweise umgesetzt) - Oft durch Zusammenschau über verschiedene Studien Externe Validität und Konstruktvalidität • Beides sind Generalisierungen. • Konstruktvalidität auf Konstrukte, nicht auf kausalen Zusammenhang. - Interpretieren wir den Zusammenhang auf Konstruktebenekorrekt? • Externe Validität auf den kausalen Zusammenhang für andere Personen, settings, treatments, outcomes. - Ist der kausale Zusammenhang stabil, oder zumindestgleichgerichtet, wenn UTOS variiert. Externe, interne, statistische und Konstruktvalidität: Trade-offs und Prioritäten • Externe und interne Validität verhalten sich manchmal gegenläufig. • Entscheidungen der Forscher darüber, wie Ressourcen alloziert werden: - z.B. zugunsten randomisierter Zuweisung zu den treatments/settings (interne Validität), - Zugunsten der Diversität untersuchter Stichproben/treatments/settings (externeValidität). - Unterschiedliche Schwerpunkte in angewandter (externe und Konstruktvalidität der Ergebnisvariablen) und Grundlagenforschung (interne und Konstruktvalidität der Ursache). • Ebenfalls trade-offs zwischen statistischer Validität und externer Validität - Homogenität versus Heterogenität der Stichprobe. • Konstruktvalidität benötigt eine intensive Auseinandersetzung mit der Definition der Konstrukte und mit der Übereinstimmung der Untersuchungselemente mit den Konstrukten. Welche Validität die wichtigste ist, ist also stark vom Kontext abhängig. Oftmals ist es auch so, dass im Laufe eines Forschungsprojekts verschiedene Arten der Validität am wichtigsten sind z.B. 1.) eine interessante Beziehung zwischen 2 Variablen wird festgestellt 2.) weiterer Forschung, um die Größe und Abhängigkeit der Beziehung herauszufinden (statistische Validität) 3.) Ist die Beziehung kausal? (interne Validität) 4.) Genaue Beschreibung der Abhängigkeit (Konstruktvalidität) 5.) Die Grenzen der Beziehung (externe Validität) Im Laufe eines Forschungszweigs sollten also alle Validitäten einmal im Mittelpunkt stehen