Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Sozialpsychologie und Politische Psychologie HBM6: Evaluation (051105) Sitzung 11: Ein-Gruppen-Designs/ nicht-experimentelle Ergebnisevaluationen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Lernziele 1. Verständnis von Ein-Gruppen-Designs (Formen, Ziele) 2. Verständnis der Verwendung/des Umgangs mit Ein-GruppenDesigns 3. Verständnis der internen Validitätsbedrohungen in Ein-GruppenDesigns 4. Verständnis der Bedrohungen der Konstruktvalidität in EinGruppen-Designs 5. Verständnis potenzieller Interpretationsprobleme bei EinGruppen-Designs 6. Verständnis der Nützlichkeit von Ein-Gruppen-Designs Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Überblick über heutige Sitzung Ein-Gruppen-Designs - Nachtest-Design - Vortest-Nachtest-Design Verwendung deskriptiver Ein-Gruppen-Designs - Erreichen/Erfüllen eines Kriteriums (Ziel) - Verbesserung (Veränderung) - „ausreichende“ Verbesserung - Veränderung(en) in Bezug zu Programmintensität und TN-merkmalen Bedrohungen der internen Validität - Veränderungen, die nicht programm- und interventionsgebunden sind - Veränderungen durch Merkmale der beobachteten Stichprobe - Veränderungen durch Methoden der Datenerhebung Konstruktvalidität in Vortest-Nachtest-Designs Überinterpretation der Ergebnisse von Ein-Gruppen-Designs Nützlichkeit von Ein-Gruppen-Designs Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Ein-Gruppen-Designs Einfachste Form der Ergebnisevaluation = Nachtest-Design: ⇒ Nachweis, dass Teilnehmer eines Programms das Programmziel erreicht haben ⇒ systematische Beobachtung einer Stichprobe zu einem definierten Zeitpunkt nach Beendigung des Programms zweite Form der Ergebnisevaluation = Vortest-Nachtest-Design: ⇒ beantwortet Frage, ob Teilnehmer eines Programms sich verbessert haben, während sie das Programm durchliefen ⇒ systematische Beobachtung einer Stichprobe vor Beginn eines Programms und (zu einem definierten Zeitpunkt) nach Beendigung des Programms ACHTUNG: Bedrohung der internen Validität => Designs ermöglichen keinen Ausschluss von alternativen Ergebniserklärungen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 1. Erreichen/Erfüllen eines Kriteriums (Ziel) = Nachtest-Design ausreichend (komplexere Ergebnisevaluationen unnötig, wenn ein Programm von der Zielpopulation ignoriert wird und/oder selbst für Teilnehmer ineffektiv ist) 2. Intendierte Verbesserung (Veränderung in Zielrichtung) = Vortest-Nachtest-Design (bei Nachweis einer bedeutsamen Veränderung während des Programms Rückschluss auf Programm als Ursache dennoch nicht möglich; statistische Signifikanz zeigt nur, dass das Auftreten der Veränderung nicht zufällig war) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 3. ‚ausreichende‘ Veränderung in Zielrichtung Feststellung des „ausreichend“ im Vortest-Nachtest-Design a) wenn Ergebnisvariable aus sich selbst heraus bedeutsam ist z.B. bei Raucherentwöhnung: # weniger gerauchter Zigaretten oder # „neuer“ Nichtraucher b) wenn die Ergebnisvariable als Annäherung (‚proxy‘) an eine Variable dient, deren Messung zu schwierig oder zu teuer ist z.B. Programm (‚psychologische Beratung‘) zur besseren Lebensanpassung → Messung mit Tests zur Ängstlichkeit, Stress oder Depression; Berechnung der Effektgröße (-stärke) und Beurteilung dieser ACHTUNG: Notwendigkeit für EvaluatorInnen, Sensibilität gegenüber bedeutsamen Veränderungen zu entwickeln (≠ statistisch signifikante Veränderungen) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 4. Veränderung(en) in Bezug zu Programmintensität und Teilnehmermerkmalen weiterer Grund für Durchführung einer Evaluation: => Suche nach Merkmalen von Teilnehmern, die mit Erreichen der Programmziele zusammenhängen könnten (explorative bzw. versuchsweise Untersuchung mit Ein-GruppenDesign möglich) wenn Zusammenhang besteht: a) b) Variable (Teilnehmermerkmal) bedeutsam für zukünftige Evaluationen unmittelbarer Einfluss der Variable, wenn selektive Effekte auf Zielstichprobe vorliegen eine Methode des Korrelierens von Veränderungen mit Programmintensität und/oder Teilnehmermerkmalen => Berechnung von Partialkorrelationen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 4. Veränderung(en) in Bezug zu Programmintensität und Teilnehmermerkmalen Berechnung von Partialkorrelationen Beispiel: 1) StudentInnen, die in Kurs X gut abschneiden, haben wahrscheinlich von vorne herein (vor Beginn des Kurses) einen höheren Notendurchschnitt als die, die nicht so gut abschneiden 2) StudentInnen mit einem höheren Notendurchschnitt nehmen wahrscheinlich regelmäßiger an den einzelnen Kurssitzungen teil, als die mit geringerem Notendurchschnitt Wenn Annahmen richtig => Erwartung von positiven Korrelationen zwischen Vortestwerten, Nachtestwerten und Teilnahmezahlen Fragestellung: Werden bessere Ergebnisse (Noten) durch Teilnahmegrad vorhergesagt? Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 4. Veränderung(en) in Bezug zu Programmintensität und Teilnehmermerkmalen Berechnung von Partialkorrelationen Im Beispiel: • statistische Kontrolle der Unterschiede in Vortestwerten durch partielle Korrelation der Nachtestwerte mit dem Teilnahmegrad (unter Konstanthalten der Vortestwerte) • Ergebnis = (vergleichsweise hohe) partielle Korrelation von 0,4; weist auf Beziehung zwischen Leistungsverbesserung und Teilnahme an einzelnen Kurssitzungen hin; Teilnahme am Kurs ist sinnvoll, da bessere Noten nicht nur auf höheres Ausgangsniveau zurückzuführen sind, sondern auch auf die Teilnahme Cohens (1987) Vorschlag zur Interpretation von Korrelationen und von auf Zusammenhängen basierenden Effektstärken: 0,1 = klein 0,3 = moderat Evaluation SS 2015 0,5 = groß Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Verwendung deskriptiver Ein-Gruppen-Designs 4. Veränderung(en) in Bezug zu Programmintensität und Teilnehmermerkmalen ACHTUNG: Berechnung von partiellen Korrelationen nur angemessen, wenn: a) große Varianz in potenziell beeinflussender Drittbzw. Kontrollvariable(n) b) Interesse an Einfluss potenziell beeinflussender Drittvariable(n) (Fragestellung) Positive partielle Korrelation kann Hinweis auf Wert und Wirksamkeit eines Programmes liefern, eliminiert jedoch nicht alle nichtprogrammspezifischen alternativen Erklärungen für gefundene Effekte (Verbesserungen/Veränderungen) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Bedrohungen der internen Validität I. Veränderungen in TeilnehmerInnen, die nicht auf das Programm oder die Intervention zurückzuführen sind Reifung: natürliche Veränderungen in Personen aufgrund eines bloßen Verstreichens der Zeit History: Ereignisse, die zwischen Vor- und Nachtest auftreten und die Programmteilnehmer beeinflussen II. Veränderungen, die auf Merkmale der beobachteten Stichprobe zurückzuführen sind Selbstselektion: Selektionskriterium unterscheidet Untersuchungsteilnehmer vom durchschnittlichen Mitglied der Zielpopulation Abbruchrate: Anzahl der Personen, die ein Programm zwar beginnen, aber vor Beendigung die Teilnahme abbrechen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Bedrohungen der internen Validität II. Veränderungen, die auf Merkmale der beobachteten Stichprobe zurückzuführen sind Regression zur Mitte: extreme Werte im Vortest tendieren im Nachtest zur Mitte (aufgrund von zufälligen Einflüssen, die sich mit großer Wahrscheinlichkeit nicht exakt wiederholen) (Interpretations-)Problem im Vortest-Nachtest-Design besteht dann, wenn in der Untersuchungsgruppe nur Teilnehmer mit extremen Werten sind (Selektionskriterium) und sich im Nachtest Verbesserungen zeigen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Bedrohungen der internen Validität III. Veränderungen, die auf die Datenerhebungs- (bzw. Beobachtungs-) methoden zurückzuführen sind Testung: Veränderungen im Verhalten aufgrund der Datenerhebungs- bzw. Beobachtungstechnik Vertrautheit: Retest-Effekte Reaktivität: Personen verhalten sich anders, wenn sie wissen, dass sie unter Beobachtung stehen Instrumentation: bezieht sich auf das Messen selbst bzw. die Nutzung von Messprozeduren (v.a. wenn Maße nicht hoch objektiv sind und z.B. mehr oder weniger Interpretationsspielraum lassen) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Bedrohungen der internen Validität IV. Interaktionseffekte der Validitätsbedrohungen Interaktionseffekte zwischen den einzelnen Validitätsbedrohungen in Ein-Gruppen-Designs möglich: z.B. Selection-by-maturation interaction (Selektion x Reifung) Eltern versuchen ihre Kinder gezielt zu fördern (Selbstselektion), da diese sich schneller entwickeln als Kinder von Eltern, die nicht versuchen, ihre Kinder gezielt zu fördern (Reifung) V. Zwei Seiten der Validitätsbedrohungen Validitätsbedrohungen können => Programmeffekte vortäuschen => Programmeffekte überdecken Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Konstruktvalidität in Vortest-Nachtest-Designs Bei Verwendung von Selbst-Berichten (self-report measures) in Vortest-Nachtest-Designs => Notwendigkeit zu untersuchen: - ⇒ ob ein Programm zu Veränderungen sowohl dahingehend führt, wie die Teilnehmer die Aufgaben/Fragen verstehen als auch dahingehend, wie die eigenen Stärken und Schwächen bzw. Probleme verstanden werden 3 Arten von Veränderungen, die in Teilnehmern eines Programmes auftreten können α – Veränderungen (alpha change) β – Veränderungen (beta change) γ – Veränderungen (gamma change) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Konstruktvalidität in Vortest-Nachtest-Designs α – Veränderungen (alpha change) „echte“ Veränderung im interessierenden Verhalten (bei hoher interner Validität ist das Programm Ursache der Veränderung) β – Veränderungen (beta change) treten auf, wenn Programmteilnehmer ihr Verständnis der Bedeutung einer Skala verändern (Vergleichsprozesse) (Personen lernen durch Intervention mehr über sich, haben in der Folge eine genauere Selbsteinschätzung und schneiden aber hierdurch eventuell im Nachtest schlechter ab) γ – Veränderungen (gamma change) Unterschiede zwischen Vor- und Nachtest aufgrund einer Rekonzeptualisierung der Bedeutung einer gemessenen Variable (Lernprozesse bzw. Wissenseffekt) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Konstruktvalidität in Vortest-Nachtest-Designs ⇒ Variablen, die objektiv gemessen werden können, unterliegen den β- und γ-Veränderungen nicht ⇒ β- und γ-Veränderungen stellen grundsätzlich die Konstruktvalidität einer Variable in Frage (wenn eine Variable für verschiedene Personen Unterschiedliches bedeutet, mangelt es ihr an Konstruktvalidität) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Konstruktvalidität in Vortest-Nachtest-Designs Strategien zur Minimierung der Konstruktvaliditätsbedrohungen: 1. Trennen der Informationen, die zur Programmevaluation gesammelt wurden, von denen, die für Behandlungsentscheidungen nötig sind 2. Teilnehmern glaubhaft machen, dass ihre Antworten validiert werden 3. Interviewer einsetzen, die sowohl mit dem Programm als auch mit den Problemen der Teilnehmer Erfahrungen haben 4. den Teilnehmern explizite Referenzgruppen geben, mit denen sie sich selbst vergleichen sollen 5. Verhaltensbezogene Beurteilungsanker verwenden statt bewertende Begriffe manchmal Empfehlung zur Verwendung von retrospektiven Vortests (da nach Programm Teilnehmer ein besseres Verständnis ihres Verhaltens haben) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Ergebnisüberinterpretationen in Ein-Gruppen-Designs In Ein-Gruppen-Designs => häufiger Versuch der Kompensation der Design-Schwäche durch Erhebung vieler (ähnlicher) abhängiger Variablen Problem: Erhöhung der Wahrscheinlichkeit für den statistischen Fehler 1. Ordnung (α-Fehler, Typ-I- Fehler) ⇒ große Gefahr der Überinterpretation von (signifikanten) Beziehungsmustern, die lediglich Ergebnis einer zufälligen Variation sind Gründe für das Nichtentdecken von auf dem Typ-I-Fehler basierenden Fehlinterpretationen: - statistische Unerfahrenheit der Evaluator_innen (mit Tendenz zum Data-Mining bzw. „fishing“ for significant relationships) - Rückschaufehler (hindsight-bias): Tendenz zu glauben, ein Ergebnis erwartet haben zu können, nachdem man das Ergebnis erfahren hat Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Ergebnisüberinterpretationen in Ein-Gruppen-Designs Strategien zur Vermeidung von auf dem α-Fehler bzw. Typ-I- Fehler basierenden Fehlinterpretationen in Ein-Gruppen-Designs: • hypothesengeleitetes Vorgehen bei der Datenerhebung • hypothesengeleitetes Vorgehen bei der Datenauswertung • Replikation(en) der Untersuchungen • (Alpha-Korrektur) Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Nützlichkeit von Ein-Gruppen-Designs Wenn im Vorfeld einer Evaluation mit Ein-Gruppen-Design die erwünschten Level der Ergebnisvariable(n) definiert sind und es während des Programms keine Abbrecher gibt => Vortest-Nachtest-Design ausreichend zur Dokumentation des Programmerfolgs Evaluationen mit Ein-Gruppen-Designs sind - wenig auf- bzw. zudringlich - vergleichsweise günstig (finanziell) - erfordern viel weniger Aufwand als kontrolliertere Programme ⇒ erfüllen somit wichtige Funktionen in Hinblick auf Planung weiterer, kontrollierterer Programmevaluationen: 1) 2) 3) Hinweise für Nützlichkeit weiterer Evaluationen Korrelation der Verbesserung mit anderen Variablen Vor- bzw. Wegbereitung (institutionell) für weitere Evaluationen Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann Ein-Gruppen-Designs/nicht Designs/nicht-experimentelle experimentelle Ergebnisevaluationen 29. Juni 2015 Relevante Begriffe - Ein-Gruppen-Designs interne Validität Reifung Geschichte (+ lokale Geschichte) Regression zur Mitte (Selbst)Selektion Abbruchrate (bzw. Drop-Out-Rate) Testung - Instrumentation Konstruktvalidität alpha-, beta-, gamma-Veränderungen Typ-I-Fehler - Rückschaufehler Evaluation SS 2015 Institut für Psychologie Der Christian-Albrechts-Universität zu Kiel Sozialpsychologie & Politische Psychologie Dr. Anne Bachmann