Methoden der Evaluationsforschung Vorlesung von Prof. Dr. Rolf Steyer Sommersemester 2009, Friedrich-Schiller-Universität Jena Ein Skript zur Vorlesung von Clemens Lechner & Moritz Niehaus Dieses Dokument ist ausschließlich zur Klausurvorbereitung von Franziska Meichsner, Franziska Seidel und Marie Penzold und nicht zur Weitergabe oder sonstiger Verbreitung bestimmt! 1 Inhaltsverzeichnis 1. Sitzung vom 14.04.2009: Evaluation intra-individueller Veränderung. Der Reliable Change Index (RCI) .....................................................5 Organisatorische Vorbemerkungen.............................................................................................................................................................5 Inhaltliche Einführung................................................................................................................................................................................5 Hintergrund: Evaluationsforschung.........................................................................................................................................................5 Themen der Vorlesung ...........................................................................................................................................................................5 Problemstellung .....................................................................................................................................................................................5 Effektgröße ............................................................................................................................................................................................5 Der RCI (Kritische Differenz) ....................................................................................................................................................................6 Grundidee ..............................................................................................................................................................................................6 RCI-KTT: Rechenformel ........................................................................................................................................................................6 RCI -Anwendungsbeispiel ......................................................................................................................................................................6 RCI bei Berücksichtigung von situationsbedingten Effekten ....................................................................................................................7 Zusammenfassung..................................................................................................................................................................................8 2. Sitzung vom 21.04.2009: Erklärung von interindividuellen Unterschieden in der intra-individuellen Veränderung: True-change-Modelle......8 Einführung und Überblick ..........................................................................................................................................................................8 Rückblick über die letzte Stunde .............................................................................................................................................................8 Zu behandelnde Modelle ........................................................................................................................................................................8 True-change-Modelle.................................................................................................................................................................................8 Ausgangspunkt.......................................................................................................................................................................................8 Identi kation der Parameter....................................................................................................................................................................9 Baseline Modell: Grundidee .................................................................................................................................................................10 Neighbor-Modell: Grundidee................................................................................................................................................................10 True-Change-Modell mit Methodenfaktor .............................................................................................................................................11 Methodenfaktor und erklärende Variable...............................................................................................................................................12 3. Sitzung vom 28.04.2009: Analyse des True-Change-Modells mit Mplus und das True-Change-Modell für kongenerische Variablen...........12 Rückblick auf die letzte VL ..................................................................................................................................................................12 Analyse von True-Change-Modellen in Mplus ..........................................................................................................................................13 1. Modell in Mplus: essentiell t-äquivalentes True-Change-Modell........................................................................................................13 2. Modell in Mplus: t-kongenerisches True-Change-Modell ..................................................................................................................14 3. Modell in Mplus: True-Change-Modell mit Methodenfaktor ..............................................................................................................14 4. Modell in Mplus: Mehrgruppenmodell ..............................................................................................................................................15 4. Sitzung vom 05.05.2009: Analyse von True-Change-Modellen mit Mplus (Fortsetzung) ............................................................................16 Abstract der Sitzung.................................................................................................................................................................................16 Rückblick auf die letzte VL......................................................................................................................................................................16 Inhaltliche Rekapitulation.....................................................................................................................................................................16 Interpretation des Outputs und Hypothesentests ........................................................................................................................................16 Hypothese 1: Varianzen der Change-Variablen......................................................................................................................................16 Hypothese 2: Mittelwerte der Change-Variablen ...................................................................................................................................17 Hypothese 3: Gleichheit der Mittelwerte der Ausgangswerte..................................................................................................................17 Hypothese 4: Differenzielle Veränderungen ..........................................................................................................................................17 Änderung des Modells: Aufnahme des Culture Fair Tests (CFT) ...............................................................................................................17 Grundgedanke......................................................................................................................................................................................17 Änderung der Syntax für das neue Modell.............................................................................................................................................17 Gesamte Syntax ...................................................................................................................................................................................18 Interpretation des Outputs.....................................................................................................................................................................19 Lineare und nichtlineare Wachstumskurven als True-Change-Modelle ..........................................................................................................19 Einführung in den Grundgedanken von Wachstumskurven ........................................................................................................................19 Pfadmodell und Regressionsgleichungen bei linearem Wachstum ..........................................................................................................19 Pfadmodell und Regressionsgleichungen bei nicht-linearem Wachstum .................................................................................................19 Agenda für die nächste(n) Sitzung(en) ..................................................................................................................................................19 5. Sitzung vom 12.05.2009: Wachstumskurvenmodelle und ihre Analyse mit Mplus......................................................................................20 Abstract der Sitzung.................................................................................................................................................................................20 Rückblick auf die letzte VL ..................................................................................................................................................................20 Wachstumskurvenmodelle........................................................................................................................................................................20 Einleitende Überlegungen und Parallelen zu True-Change-Modellen .....................................................................................................20 Kodierung 0, 1, 2..................................................................................................................................................................................21 Kodierung 1, 0, +1..............................................................................................................................................................................22 Beispiel mit Kodierung 0, 1, 2 ..............................................................................................................................................................23 Beispiel mit Kodierung 1, 0, +1 ..........................................................................................................................................................24 Inhaltliches Fazit zu Wachstumsmodellen allgemein .............................................................................................................................26 Umsetzung von Wachstumsmodellen in Mplus......................................................................................................................................26 2 6. Sitzung vom 19.05.2009: Einführung in die Kausalitätstheorie: Das Simpson Paradox und seine Konsequenzen .........................................29 Abstract der Sitzung .............................................................................................................................................................................29 Stand der Vorlesung .............................................................................................................................................................................30 Experiment vs. Quasiexperiment ..............................................................................................................................................................30 Simpson-Paradox .....................................................................................................................................................................................31 Unbedingter Prima Facie Effekt (uncondicitonal prima facie effect).......................................................................................................31 Bedingter Prima Facie Effekt (conditional prima facie effect) ................................................................................................................32 Über Z gemittelter Prima Facie Effekt (Average prima facie effect with respect to Z) .............................................................................33 Zusammenfassung von Prima Facie Effekten beim Simpson-Paradox ....................................................................................................33 Nonorthogonale Varianzanalyse ...............................................................................................................................................................34 Grundidee und Begrifflichkeiten ...........................................................................................................................................................34 Unbedingte Prima Facie Effekte............................................................................................................................................................34 Bedingte Prima Facie Effekte ...............................................................................................................................................................34 Über Z gemittelter Prima Facie Effekt...................................................................................................................................................35 Zusammenfassung von Prima Facie Effekten bei nonorthogonaler Varianzanalyse .................................................................................35 Übersicht Prima Facie Effekte ..................................................................................................................................................................35 7. Sitzung vom 26.05.2009: Kausalitätsraum, True-Outcome-Variablen und True-Effect-Variablen ...............................................................36 Abstract der Sitzung.................................................................................................................................................................................36 Thematische Einordnung der Sitzung........................................................................................................................................................36 Rückblick auf die letzte VL ..................................................................................................................................................................36 Agenda für diese Sitzung......................................................................................................................................................................36 Möglichkeiten zur Abschätzung kausaler Effekte ......................................................................................................................................36 Grundgedanke: Atomare Stratifizierung ................................................................................................................................................36 Filtration ..............................................................................................................................................................................................37 Kausalitätsraum....................................................................................................................................................................................38 8. Sitzung vom 02.06.2009: Durchschnittliche und bedingte kausale Effekte................................................................................................39 Abstract der Sitzung.................................................................................................................................................................................39 Rückblick auf die letzte VL ..................................................................................................................................................................39 Exkurs zur Variable d und Unabhängigkeit von X.................................................................................................................................39 Kausale Effekte: Begriffe .........................................................................................................................................................................40 Durchschnittlicher kausaler Effekt ........................................................................................................................................................40 Bedingter kausaler Effekt hinsichtlich einer Kovariate Z........................................................................................................................40 Bedingter kausaler Effekt hinsichtlich einer Treatment-Bedingung X.....................................................................................................40 Bedingter kausaler Effekt hinsichtlich der Werte X und Z......................................................................................................................41 Bedingte Effektfunktionen....................................................................................................................................................................41 Individueller Kausaleffekt ....................................................................................................................................................................41 Kausale Effekte: Beispiele........................................................................................................................................................................41 Beispiel aus Kapitel 4.1.3 .....................................................................................................................................................................41 9. Sitzung vom 09.06.2009: Baseline-Bias und Effekt-Bias ..........................................................................................................................43 Abstract der Sitzung.................................................................................................................................................................................43 Rückblick und Stand der Vorlesung..........................................................................................................................................................43 Rückblick.............................................................................................................................................................................................43 Agenda für die heutige Sitzung .............................................................................................................................................................43 Annahmen ...........................................................................................................................................................................................43 Erstes Beispiel für Verfälschung...........................................................................................................................................................43 Zweites Beispiel für Verfälschung [34:00] ............................................................................................................................................45 Drittes Beispiel für Verfälschung [42:30] ..............................................................................................................................................46 Das Bias-Theorem ...................................................................................................................................................................................46 Baseline-Bias und Effect-Bias...............................................................................................................................................................46 10. Sitzung vom 16.06.2009: Die Allgemeine Definition der True-Outcome-Variablen, der Extension, Unverfälschtheit und die Grundidee der Adjustierungsverfahren................................................................................................................................................................................47 Abstract der Sitzung.................................................................................................................................................................................47 Rückblick auf die letzte Sitzung............................................................................................................................................................48 Verändertes Simpson-Paradox ..............................................................................................................................................................48 Extension .............................................................................................................................................................................................49 Allgemeine Definition der True-Outcome-Variablen .................................................................................................................................50 Unverfälschtheit.......................................................................................................................................................................................50 Nutzen der Extension für Datenanalysen ...............................................................................................................................................50 11. Sitzung vom 23.06.2009: Kausalitätsbedingungen: hinreichende Bedingungen für die Unverfälschtheit ...................................................51 Abstract der Sitzung.................................................................................................................................................................................51 Rückblick auf die letzte VL und Agenda für diese Sitzung.....................................................................................................................51 Acht hinreichende Kausalitätsvoraussetzungen .........................................................................................................................................51 (1) Unabhängigkeit und (2) Homogenität ..............................................................................................................................................51 (3) Unabhängigkeit von X und t und (4) Regressive Unabhängigkeit von t und X...................................................................................52 (5) Bedingte Unabhängigkeit und (6) Bedingte Homogenität .................................................................................................................53 (7) Bedingte Unabhängigkeit von X und t und (8) Bedingte regressive Unabhängigkeit von t und X.......................................................53 3 Datenbeispiel ...........................................................................................................................................................................................54 Datenbasis und Software ......................................................................................................................................................................54 Effektschätzung....................................................................................................................................................................................55 12. Sitzung vom 30.06.2009: Analyse kausaler Effekte mit EffectLite. Inhaltliche und theoretische Bedeutung der Ergebnisse .......................56 Abstract der Sitzung.................................................................................................................................................................................56 Rückblick auf die letzte Sitzung............................................................................................................................................................56 Datenbeispiel in EffectLite (Fortsetzung)..................................................................................................................................................57 Grundlegendes zu EffectLite.................................................................................................................................................................57 Output in EffectLite..............................................................................................................................................................................57 Exkurs zur Extension ...............................................................................................................................................................................58 Zusammenfassung von Prof. Steyer zur Extension.................................................................................................................................58 Funktionsweise von EffectLite..............................................................................................................................................................59 EffectLite Output (Fortsetzung) ................................................................................................................................................................59 13. Sitzung vom 07.07.2009: EffectLite-Analysen mit latenten Variablen und individuelle kausale Effekte (ICE)..........................................60 Abstract der Sitzung.................................................................................................................................................................................60 Rolle latenter Variablen als Kovariaten .................................................................................................................................................60 Vorgehen: Test- und Modellspezifikation..............................................................................................................................................61 Vorgehen: Lesen des Outputs ...............................................................................................................................................................61 Mplus-Output.......................................................................................................................................................................................62 Fazit zur Verwendung latenter Variablen als Kovariaten........................................................................................................................63 Modelle zur Analyse individueller kausaler Effekte (ICE) .........................................................................................................................63 Grundproblem: Treatmenteffekte vs. Alternativerklärungen...................................................................................................................63 Grundidee für eine Lösung des Problems kausaler Interpretation............................................................................................................63 14. Sitzung vom 14.07.2009: Rückblick und Fragestunde..............................................................................................................................65 Abstract der Sitzung.................................................................................................................................................................................65 Organisatorisches & Ankündigungen ....................................................................................................................................................65 Rückblick auf die Inhalte dieses Semesters ...............................................................................................................................................65 Kausalität.............................................................................................................................................................................................65 Fragen der Teilnehmer .............................................................................................................................................................................66 1.) Prüfbarkeit von Bedingungen für Kausalität .....................................................................................................................................66 2.) Adjustierung ...................................................................................................................................................................................66 3.) Frage ..............................................................................................................................................................................................66 4.) Anwendung der Extension ...............................................................................................................................................................67 5.) Mplus und EffectLite.......................................................................................................................................................................67 6.) Standardnormalverteilung des RCI...................................................................................................................................................67 7.) t als Funktion von U........................................................................................................................................................................67 8.) Störvariablen I.................................................................................................................................................................................67 9.) Störvariablen II ...............................................................................................................................................................................68 10.) Kodierung von Wachstumskurvenmodelle......................................................................................................................................68 11.) Organisatorische Frage zur Klausur................................................................................................................................................68 4 C 1. Sitzung vom 14.04.2009: Evaluation intra-individueller Veränderung. Der Reliable Change Index (RCI) Organisatorische Vorbemerkungen - Zu der Vorlesung gibt es wieder eine Übung (Montag, 12-14 Uhr), die von Frau Fiege geleitet wird - Die Vorlesung wird mit einer Klausur abgeschlossen. Inhaltliche Einführung Hintergrund: Evaluationsforschung - Wozu Evaluationsforschung? o Man möchte wissen, ob und wie neue oder bestehende Interventionen (psychologische, sozialpolitische) etc. wirken, denn die Wirkung ist zentrales Entscheidungskriterium für Anwendung und Finanzierung. § Auch Institutionen oder Programme können evaluiert werden. - Wir werden aber keine allgemeine Überblicksvorlesung über Evaluationsmethoden oder die Bedeutung von Evaluation hören (dies kann man sich leicht aus Büchern aneignen). Vielmehr werden wir uns mit komplizierteren statistischen Verfahren beschäftigen. Themen der Vorlesung - (1) Intraindividuelle Veränderung o Messfehlerproblem und situationale Effekte o KTT und LST-Theorie - (2) Modellierung interindividueller Unterschiede in der intraindividuellen Veränderung o True-change Modelle o Wachstumskurvenmodelle - (3) Kausalität [wird den größten Raum einnehmen] o Kausalitätstheorie o Designfragen o Analyse kausaler Effekte Problemstellung - Wieso kann ein Treatment nicht durch den Vergleich von Prä- und Postmessung evaluiert werden? o Dies liegt an den folgenden Problemen: § Messfehlerproblem: Unterschiede in den Werten könnten an Messfehlern liegen, statt auf das Treatment zurückzugehen § Problem situationaler Effekte: Womöglich liegen gefundenen Unterschieden keine wahre Traitveränderung zugrunde, sondern nur situationale Schwankungen. § Kausalitätsproblem: Selbst wahre Trait-Veränderungen müssen nicht auf die Intervention zurückzuführen sein. - Außerdem: Wie kann man interindividuelle Unterschiede in den intraindividuellen Veränderungen erklären? Effektgröße - Wie kann man die jeweiligen Größen von Messfehler und situativen Schwankungen (und in Abgrenzung davon: die Effektgröße) abschätzen? Ein Ausgangspunkt dazu: Die Therapieforscher Grawe & Braun (1994) schlagen vor, für die interessierenden Interventionen eine Effektgröße auszurechnen. Dies geschieht durch die Bildung der Differenz von Nach- und Vortest, dividiert durch die Streuung des Vortests: o Damit können verschiedene Kriterien in verschiedenen Skalierungen miteinander verglichen werden. Man kann Veränderungsprofile bzgl. unterschiedlicher interessierender Kriterien erstellen, anhand derer man die Wirkung der Therapie zu beurteilen gedenkt. § Beispiel: Differenzen der Testergebnisse in Depressivität, Lebenszufriedenheit, Ängstlichkeit. o Nachteil: Keine Beurteilung der Veränderung möglich. Man bekommt keine Signifikanz ausgegeben; es fließt kein Wissen über die Reliabilitäten der zugrunde liegenden Größen ein. 5 Der RCI (Kritische Differenz) Grundidee - Die Probleme der oben vorgestellten Effektgrößen kann man mit einem anderen Kennwert umgehen, dem RCI (reliable change index). Dessen Formel lautet: - Man teilt hier die Differenz zwischen Nachtest und Vortest durch die Nullhypothese der Streuung der Differenz. Die Verteilung dieser Größe kennt man, wenn man die Ausgangswerte von X und Y kennt; sind diese normalverteilt, so ist deren Differenz ebenfalls normalverteilt. o Es erfolgt also eine Normierung der Differenz durch die Streuung der Veränderung von Nach- und Vortest unter der Nullhypothese keine Veränderung bei der betrachteten Person u. - Der RCI hat den Erwartungswert 0 und eine Streuung von 1. Mithin handelt es sich um eine standardnormalverteilte Größe. Nullhypothese - Wir müssen eruieren, wie die Streuung unter der Nullhypothese keine Veränderung aussieht. Diese ist aber noch zu unpräzise; keine Veränderung kann ganz Verschiedenes bedeuten, z.B. keine situativen Effekte, keine Effekte des Treatments, etc. In der KTT würde dies hingegen konkret bedeuten, dass der Truescore sich nicht ändern und nur die Messwerte fluktuieren. - Daher nehmen wir eine entsprechende Präzisierung der Nullhypothese in Termini der KTT vor. Dabei handelt es sich um die Annahmen des Paralleltestmodells: o X= Y o Cov ( X , Y) = 0 o Var ( X) = Var ( Y) = Var ( ) - Wir wollen nun wissen, wie unter diesen Annahmen die Streuung der obigen Differenz aussähe. Dazu dürfen wir nicht die tatsächlichen Vor- und Nachtestwerte zu nehmen, denn in diesen können wir nicht von der Gültigkeit der Nullhypothese aussehen. - Demnach ist nun unter Annahme der Nullhypothese die Formel für Var (Y X ) zu entwickeln. RCI-KTT: Rechenformel - Die Varianz der Veränderungsvariablen unter der Nullhypothese (Der Index bei Var0 bedeutet unter Gültigkeit der Nullhypothese ): o Zur Berechnung dieser Formel setzt man einfach die Zerlegung der Messfehlervariablen X und Y ein, macht sich zur Vereinfachung die Modellannahmen zunutze und wendet die Rechenregeln an für Varianzen und Kovarianzen an. - Grundidee und Nullhypothese führen zur Rechenformel: o Diese Formel können wir ausrechnen, da wir darin für die Berechnung der Größen im Nenner die realen Testwerte verwenden können, für welche die Nullhypothese nicht angenommen werden muss. § Für Rel (X) muss allerdings die Reliabilitätsschätzung für den Gesamttest verwendet werden, nicht jene für einzelne Testteile. o Man bekommt mit dieser Formel einen RCI für jede Person. Um diesen auf Signifikanz zu testen, schaut man, ob dieser den Wert 1,96 überschreitet oder nicht (~ 5%-Niveau). RCI -Anwendungsbeispiel - Skala: Erschöpfung des Giessener Beschwerdebogens Items: Schwächegefühl, Schlafbedürfnis, Erschöpfbarkeit, Müdigkeit, Benommenheit, Mattigkeit Kategorien: 0 - 4 (nicht - stark) Stichprobe: N = 777 6 - Frage: Wie stark fühlen Sie sich durch die folgenden Beschwerden belästigt? - Für eine Person mit einem Prätestwert von X = 13 und einem Posttestwert von Y = 7 ergibt sich: o Dieser Wert ist signifikant auf dem 5%-Niveau, wenn wir die Standardnormalverteilung zugrunde legt. Die Wahrscheinlichkeitsaussagen sind sinnvoll, wenn eine Normalverteilung vorliegt. § Die Annahme der Standardnormalverteilung ist nicht immer erfüllt, oft sind die Verteilungen schief. Immerhin aber bekommt man mit dem RCI einen ersten Anhaltspunkt über die Prä-Post-Veränderung. Man sollte den RCI nicht als echten Signifikanztest werten, schließlich hat man zusätzlich zu den möglichen Verteilungsproblemen das Risiko des kumulierten Alphafehlers. Vielmehr sollte man ihn als Screeningverfahren verwenden. § Ist die Annahme nicht erfüllt, kann man entweder durch Transformation die Verteilung zu einer Normalverteilung machen oder ein anderes Testverfahren verwenden, das für die gegebene Verteilung geeignet ist. RCI bei Berücksichtigung von situationsbedingten Effekten - Wenn wir nicht nur wie bisher Messfehler, sondern situative Schwankungen als mögliche Ursache für Veränderungen von X nach Y einbeziehen (siehe rechte Grafik), so müssen wir die oben eingeführte Nullhypothese verändern, sodass auch diese Effekte mathematisch gefasst werden können. - Daher nehmen wir eine Präzisierung der Nullhypothese in Termini der LST-Theorie vor. Die Nullhypothese lautet dann in Worten: Es gibt keine Trait-Veränderung. o X= Y o Cov 0 X , Y) = 0 o Var 0 X) = Var 0 ( Y) = Var 0 ) o Cov 0 X , Y ) = 0 o Var 0 X) = Var0 ( Y) = Var 0 ) - Mit dieser veränderten Nullhypothese ist nun wieder Var 0 (Y X) zu entwickeln: - Grundidee und Annahmen führen zur Rechenformel: o Statt des Reliabilitätskoeffizienten steht im Nenner nun also der Konsistenzkoeffizient, der anzeigt, welcher Varianzanteil über die Zeit stabil bleibt. Berechnung des Konsistenzkoeffizienten - Zur Berechnung des RCI benötigt man in der Anwendung demzufolge eine Schätzung des Konsistenzkoeffizienten. Hat man zwei Messgelegenheiten, erhält man diese Schätzung unter Annahme des unten dargestellten Modells wie folgt aus den manifesten Variablen: o Für diese Schätzung benötigt man allerdings eigene Daten aus zwei eigene Vortests; sie darf nicht mit den später für die Tests verwendeten Daten vorgenommen werden. § Dazu ist dann allerdings wieder die Annahme, dass im Zeitraum vor der Behandlung keine Traitveränderung stattfindet. o Wiederum benötigt man die Konsistenz für den Gesamttest, nicht nur die Testteile. 7 Zusammenfassung - (1) Im Rahmen der KTT: RCI berücksichtigt Messfehler. o Nullhypothese: Keine Stateveränderung. - (2) Im Rahmen der LST-Theorie: Verallgemeinerter RCI berücksichtigt Messfehler und situationsbedingte Effekte. o Nullhypothese: Keine Traitveränderung. C 2. Sitzung vom 21.04.2009: Erklärung von interindividuellen Unterschieden in der intra-individuellen Veränderung: True-change-Modelle Einführung und Überblick Rückblick über die letzte Stunde - Letzte Stunde haben wir uns mit Möglichkeiten zur Untersuchung der Frage beschäftigt, ob zwischen zwei Messzeitpunkten bei einer Person Veränderungen stattgefunden haben, die nicht nur auf Messfehler oder situative Effekte zurückzuführen sind, sondern auf wahre Veränderung (d.h. in den Truescores). - Heute werden wir uns die Frage stellen, wie wir Messwerte modellieren können. Denn vielleicht fallen die Veränderungen für unterschiedliche Personen unterschiedlich groß aus ein Faktum, das erklärt werden muss: Warum bewirkt eine Intervention bei manchen Personen besser als bei anderen, und welche Eigenschaften haben diese Personen? So können Fragen der differenziellen Indikation beantwortet werden. o Dazu werden wir sog. True-change-Modelle behandeln. § Warum können wir solche Fragestellungen nicht mit dem letzte Sitzung behandelten RCI lösen? Antwort: Er ist selbst messfehlerbehaftet, genau wie auch die Grawesche Effektgröße. Der Fehler wird zwar bei Signifikanztests berücksichtigt, aber nicht eliminiert. Zu behandelnde Modelle - Wir werden im Laufe der kommenden Sitzungen folgende Modelle betrachten: o True-change-Modelle mit -äquivalenten Meßmodellen § Dabei gibt es eine latente Variable, welche die wahre Veränderung widerspiegelt. o True-change-Modelle mit -kongenerischen Messmodellen o Wachstumskurvenmodelle § Dabei kann die Veränderung selbst eine latente Variable sein, die man betrachtet. - Der Ausgangspunkt dieser Modelle ist ganz ähnlich wie beim Methodenfaktor, den wir letztes Semester betrachtet haben: Wir fügen eine Differenzvariable, hier: zwischen zwei Messzeitpunkten, ein True-change-Modelle Ausgangspunkt - In der KTT werden ein Prätest Y1 und ein Posttest Y2 in ihre Truescore- und Fehlerkomponenten zerlegt: o Y1 = 1 + 1 o Y2 = 2 + 2 - Zur Darstellung der Veränderung der Truescore-Variablen 2 1 kann die Gleichung für Y2 auch folgendermaßen geschrieben werden: o Y2 = 1 + ( 2 1 ) + 2 § Das wird also einfach einmal hinzugefügt und wieder abgezogen. Dadurch ändert sich die Gleichung zwar eigentlich nicht, doch wir haben nun die Möglichkeit, die Klammer als Differenzvariable zu betrachten. - Die Einbeziehung der latenten Veränderungsvariable 2 1 wird die Möglichkeit der Erklärung der Unterschiede in den intraindividuellen Veränderungen bieten. Übersetzung der Grundidee in ein Pfadmodell - Im Pfadmodell stellen wir also die folgenden Gleichungen dar: o Y1 = 1 + 1 o Y2 = 1 + ( 2 1 ) + 2 · Das Einzige, was wir abgesehen von der tautologisch veränderten Definition der unteren latenten Variablen) gegenüber dem üblichen Multistate-Ausgangsmodell verändern, ist, den diagonalen Pfad hinzuzufügen [siehe rechte Abbildung]. 8 o Dieses Modell ist zunächst nicht identifiziert: Wir haben die beiden Fehlervariablen, die Varianzen der latenten Variablen sowie deren Kovarianz als zu identifizierende theoretische Größen, für deren Berechnung wir nur drei bekannte Gleichungen über empirische Parameter zur Verfügung haben. - Das Bild ändert sich aber sehr schnell, wenn wir zu jedem Messzeitpunkt zwei manifeste Variablen hinzufügen. Dann haben wir 10 Varianzen und Kovarianzen zur Verfügung, aus denen wir die dann anfallenden 7 theoretischen Parameter berechnen können. Identi kation der Parameter Annahmen - Für die nachfolgenden Identifikationsgleichungen benötigt man die Annahmen essentiell äquivalenter Truescore-Variablen mit unkorrelierten Fehlern in jeder Messgelegenheit: o Die Annahmen in Worten: § Beide Variablen messen die gleiche Truescore- oder Latent-State-Variable (allenfalls bis auf eine additive Konstante). · Methodeneffekte, die per definitionem personenspezifisch sind, sind damit ausgeschlossen. § Unkorreliertheit der Fehler (im Pfaddiagramm existieren keine Kreisbögen zwischen den Messfehlervariablen. Identi kation der Varianzen und Kovarianzen der latenten Variablen - Identi kation der Varianz der latenten Variablen 1: o Wir setzten die Modellgleichung (ohne additive Konstanten, die bei der Kovarianzbetrachtung ohnehin wegfallen) ein. Dann setzen wir Schritt für Schritt die uns schon bekannten Rechenregeln und Modellannahmen um. - Identi kation der Kovarianz der Variablen 1 und 2 1 o Wenn wir diese und die erste Gleichung betrachten, dann erhalten wir auch die Kovarianz zwischen Baseline und Post-TreatmentVariable. - Identi kation der Varianz der Variablen 2 1: o Über die drei empirischen Kovarianzen können wir in einem Modell in zwei Messzeitpunkten alle theoretischen Varianzen und Kovarianzen bestimmen. Der nächste Schritt wäre nun noch die Bestimmung der Fehlervarianzen. Identi kation der Varianzen der Messfehlervariable - Für den ersten Messzeitpunkt: - Für den zweiten Messzeitpunkt: 9 Baseline Modell: Grundidee - Wie kann man die obigen Gleichungen nun verallgemeinern, z.B. für mehr als zwei Messzeitpunkte? Im vorliegenden Pfaddiagramm sind sogar vier Messzeitpunkt dargestellt. o Ein Weg, dies zu tun, ist jeweils die Veränderung von jedem Zeitpunkt gegenüber dem ersten Zeitpunkt, den man als Baseline-Bedingung betrachten kann, zu untersuchen. Dafür bilden wir die entsprechenden Differenzvariablen mit dem Truescore. o Für 4 Messzeitpunkte gilt folgende Zerlegung: Yt = t + t t = 1, . . . , 4, und daher auch: § Auch dieses Modell ist zunächst nicht identifiziert. Wir bedienen uns wieder zweier Testhälften pro Zeitpunkt, um das Modell identifizieren zu können. Damit erhalten wir das nachfolgend dargestellte, identifizierte Baseline-Modell. Identi ziertes Baseline-Modell - Es handelt sich um 4 Messzeitpunkte mit jeweils 2 Indikatoren: - Das Modell unterscheidet sich hinsichtlich Fit und modellimplizierter Kovarianzmatrix nicht vom Multistate-Modell. Wir wenden schließlich nur kleine Tricks an, um die Veränderungsvariablen ins Modell zu bekommen; dabei handelt es sich aber um tautologische Umformungen, die nichts am Inhalt verändern. - Möglicherweise will man aber nicht (wie im Baseline-Modell) immer nur die Veränderung gegenüber dem ersten Messzeitpunkt betrachten. Daher führen wir nun ein weiteres Modell an: Das Neighbor-Modell. Neighbor-Modell: Grundidee - Im Neighbor-Modell betrachtet man zusätzlich die Veränderung von einem Zeitpunkt zum jeweils vorhergehenden. - Es gilt folgende Zerlegung: Yt = t + t , t = 1, . . . , 4 o Daher gilt auch: - Jede Veränderungsvariable wird hier immer zusätzlich hinzugenommen aber auch wieder abgezogen, sodass sich wieder die Nettobilanz nicht ändert; alle Gleichungen sind wiederum tautologisch. § Das Modell hat damit das rechts dargestellte Pfaddiagramm. - Bei mehr als vier Messzeitpunkten wird das Gleichungssystem dieses Modells natürlich sehr unübersichtlich. Identi ziertes Neighbor-Modell - Gegenüber dem vorherigen Baseline-Modell hat sich nur der Inhalt, nicht aber die Anzahl der latenten Differenzvariablen geändert. Daher können wir auch das Neighbor-Modell mit 4 Messzeitpunkten identifizieren, wenn man zu jedem Testzeitpunkt zwei Testhälften verwendet: 10 Alternative Darstellung von True-Change-Modellen - Veränderungsvariablen können auch auf eine alternative Art und Weise eingeführt werden. Betrachten wir zwei Gleichungen über Truescore-Variablen: o 2= 1+( o 3= 2+( 2 1 3 2 ) ) - Auch diese Gleichungen sind tautologisch: Hier steht nichts als 2 = 2 und 3 = 3. Übersetzen wir diese in ein Pfaddiagramm, so ändert sich an dem Ladungsmuster zunächst nichts; wir haben wieder ein Multistate-Modell mit drei Indikatoren zu drei Zeitpunkten. - Dann fügen wir aber für 2 die obige Gleichung ein. Dadurch fügen wir implizit die Differenzvariable bzw. Veränderungsvariablen hinzu. Wir erhalten damit das folgende Pfaddiagramm: o Das plus Null bedeutet, dass bei der Ladung der Differenzvariablen auf die Truescore-Variablen kein Residuum verbleibt. Die Differenzvariablen sind ja keine erklärenden Variablen im eigentlichen Sinne, sondern logische Definitionen. Das heißt, es bleibt keine Varianz übrig, die noch von einer anderen latenten Variable erklärt werden könnte; vielmehr wird die vorhandene Varianz des zweiten und dritten Truescores einfach definitorisch aufgeteilt auf einen Teil, der auf den Truescore zum vorhergehenden Zeitpunkt zurückzuführen ist und einen Teil, der auf die Differenzvariable zurückzurühren ist. - Das Pfaddiagramm für das alternativ parametrisierte Neighbor-Modell sieht dann wie folgt aus. o Das Baseline-Modell würde mit der alternativen Parametrisierung nur geringfügig anders aussehen als das hier dargestellte NeighborModell: Der Pfeil von 2 nach 3 würde wegfallen, dafür würde ein Ladungspfeil von 1 auf 3 gehen. - Diese alternative Darstellungsweise bietet gegenüber den eingangs eingeführten Baseline- und Neighbor-Modellen insbesondere bei einer größeren Anzahl an Messzeitpunkten den Vorteil einer größeren Übersichtlichkeit. o Inhaltlich sind die Modelle aber, wie schon erwähnt, völlig äquivalent. Wir haben hier nun eben die Differenzvariablen als Faktoren zweiter Ordnung eingeführt. Der Modellfit bleibt dabei unverändert. True-Change-Modell mit Methodenfaktor - Wir führen nun noch einen Methodenfaktor (mit Referenzmethode) ein. Letztlich stellen wir damit die Differenzen der Truescore-Variablen zu einem Zeitpunkt dar; diese Differenz zwischen einem Y1i und Y2i soll gleich jener zwischen Y1j und Y2j sein, also zu jedem Zeitpunkt gleich. 11 o Der Mittelwert jeder Truescore-Variable i ist dann gleich dem Mittelwert der ersten manifesten Variable zu einem Zeitpunkt (Y1i). o Der Methodenfaktor kann, wie man im Pfaddiagramm sieht, mit den Differenzvariablen korrelieren. - Im Gegensatz zu einem Modell ohne Methodenfaktor lassen wir hier nicht nur Differenzen zwischen Messzeitpunkten zu (die durch die Differenzvariablen modelliert werden), sondern zusätzlich auch noch zwischen Testteilen innerhalb eines Testzeitpunkts. Die Unterschiede können, da es sich beim Methodenfaktor um eine Variable handelt, für jede Person verschieden groß sein. Methodenfaktor und erklärende Variable - Schließlich werden hier noch Variablen eingeführt, welche die interindividuellen Unterschiede in der intraindividuellen Veränderung erklären sollen. - Inhaltlich ist vor allem das x1 interessant: Woran liegt es etwa, dass Personen unterschiedlich gut auf eine Therapieform ansprechen? o Diese Variable kann manifest oder latent sein; auch kann es sich um mehrere Variablen gleichzeitig handeln. § Sie kann aber immer nur auf die Differenzvariablen, nicht auf die Truescore-Variablen selbst zielen, weil sonst deren Definition ad absurdum geführt würde. Eine Ausnahme bildet dabei der erste Truescore t1 hier könnte man statt eines Korrelationsbogens tatsächlich auch einen Ladungspfeil ziehen. o Im vorliegenden Modell müsste x1 noch anhand der manifesten Variablen X1 und/oder X2 skaliert werden M 3. Sitzung vom 28.04.2009: Analyse des True-Change-Modells mit Mplus und das True-Change-Modell für kongenerische Variablen Rückblick auf die letzte VL - Wir haben uns mit True-Change-Modellen beschäftigt, also mit der Frage, wie man latente Variablen in ein Strukturgleichungsmodell einführen kann, sodass ihre Werte als fehlerbereinigte Veränderungen über die Zeit hinweg interpretiert werden können. - Die letzte Sitzung knüpfte an die Inhalte des vergangenen Semesters an, als wir die Methodenfaktoren als Differenzvariablen eingeführt haben. Diese Grundidee haben wir nun abermals verwendet, um latente Veränderungen einzuführen. - Hierbei haben wir zwei Wege kennen gelernt: o Über die Spezifikation der Ladungsmatrix [nicht weiter ausgeführt] 12 o Über die Einführung des Methodenfaktors als Differenzvariable, sozusagen als Faktor 2. Ordnung, der dann auf die latenten Differenzvariablen lädt. Thema der heutigen Sitzung - Berechnung der in diesem Semester bisher behandelten Modelle in Mplus. - Dies wird anhand des Klauer-Datensatzes geschehen, bei dem Kinder im induktiven Denken trainiert werden: Es gibt einen Vor- und Nachtest. o Gemessen wurde u.a. mit einem Wortschatztest (WST) und einem Matrizentest (CPM). Analyse von True-Change-Modellen in Mplus - Zunächst wird mit dem Input-File KlauerMethEval09_1.inp gearbeitet, das im Laufe der Vorlesung umgestaltet wird. Das Resultat der Umgestaltung ist herunterladbar und abgespeichert. Deshalb gleicht das anfangs dargestellte Multistate-Modell nicht dem in der Datei abgespeicherten Modell. 1. Modell in Mplus: essentiell t-äquivalentes True-Change-Modell - Das eingangs dargestellte Modell [nicht das in der Datei KlauerMethEval09_1.inp gespeicherte!] entspricht einem essentiell t-äquivalenten Multistate-Modell und wird im Laufe der Vorlesung zu einem essentiell t-äquivalenten True-Change-Modell umgestaltet werden. Beschreibung des essentiell-äquivalenten-Multistate-Modells - Die unter VARIABLE getroffene Aussage USEOBSERVATIONS ARE TRAINING == 1 bedeutet in diesem Datensatz, dass man die Experimentalgruppe betrachtet. - Unter dem Punkt MODEL in Mplus steht zunächst ETA1 BY ETA2 BY [CPM11@0]; [CPM12@0]; [ETA1*]; [ETA2*]; CPM11@1 CPM12@1 CPM21@1; CPM22@1; Umgestaltung zu einem essentiell t-äquivalenten True-Change-Modell mit Differenzvariable - Im Folgenden wird das obige Modell zu einem True-Change-Modell umgebaut. Dazu wird eine Differenzvariable 2 - 1 spezifiziert und im Input-File ETA2min1 genannt. - Wenn man das oben abgebildete Modell umsetzen möchte, sieht die Syntax im Abschnitt MODEL wie folgt aus: ETA1 BY CPM11@1 CPM21@1 CPM12@1 CPM22@1; ETA2min1 BY CPM12@1 CPM22@1 [CPM11@0]; [CPM12@0]; [ETA1*]; [ETA2min1*]; - Der untere Teil von MODEL verändert sich also nur insofern, dass ETA2 entfällt und durch ETA2min1 ersetzt wird. Output zum essentiell-äquivalenten True-Change-Modell - Bei Ausführung des Modells sieht man im Output, dass sich der Fit im Vergleich zum eingangs parametrisierten Multistate-Modell nicht verändert hat. - Die Kovarianz der beiden latenten Variablen war beim Multistate-Modell positiv, jetzt beim True-Change-Modell ist sie negativ. Grund dafür ist o Cov ( t , 2 - t ) o Cov ( t , 2) - Var( t) | Anwendung der Rechenregel führt zu... - Soll heißen: Die Kovarianz ist immer dann negativ, wenn die Var( t) größer ist als Cov ( t , 2). Die Kovarianz ist in der Regel kleiner als die Varianz. 13 o Wenn die Varianzen Var( t) und Var( 2) gleich groß sind, kann die Kovarianz Cov ( t , 2) nur maximal genauso groß werden wie die Varianz. Sie ist genau dann gleich groß wie einer der beiden Varianzen, wenn die Korrelation 1 ist. - Die Differenzvariable 2 - 1 (in der Syntax ETA2min1 genannt) hat in der hier betrachteten Experimentalgruppe einen Mittelwert von 5 und eine Varianz von 3,5. Eine Varianz von 0 würde bedeuten, dass alle Personen sich um den gleichen Betrag ändern. - Man möchte nun zeigen, dass die Veränderung von durchschnittlich 5 Einheiten wirklich auf die Intervention zurückzuführen ist. Hierfür muss man die Kontrollgruppe betrachten, um auszuschließen, dass die Veränderung nicht aufgrund anderer Einflüsse (hier z.B. die mit dem Alter zunehmende Intelligenz der getesteten Kinder) zu Stande gekommen ist. Output der Kontrollgruppe - Mit der Angabe USEOBSERVATIONS ARE TRAINING == 0 unter VARIABLE in der Syntax legt man fest, dass man die Kontrollgruppe betrachtet. - Der Fit des Modells ist für die Kontrollgruppe nicht zufrieden stellend, insb. der RMSEA ist für diese Gruppe problematisch. - Entscheidend ist aber die Variable 2 - 1) (in Mplus ETA2min1 genannt). Ihr Mittelwert ist jetzt nur noch 2,5 und die Varianz 0,97 (noch signifikant). o Die Behandelten verändern sich also stärker als die Unbehandelten. Dies ist aber nur auf den ersten Blick geschätzt und noch kein Signifikanztest über die Gruppenunterschiede. - Im Folgenden wird das Ziel verfolgt, den Fit des Modells zu verbessern. 2. Modell in Mplus: t-kongenerisches True-Change-Modell - Im Folgenden wird das bisher essentiell t-äquivalente True-Change-Modell zu einem kongenerischen True-Change-Modell umgestaltet. Was bedeutet Kongenerität für unser Modell? - Unser Modell mit 4 manifesten Variablen kann als -kongenerisches Modell wie folgt geschrieben werden: Y11 = 11 + 11 Y21 = l210 + l211 * 11 + 21 Y12 = 12 + 12 Y22 = l220 + l221 * 12 + 22 - Um die Veränderungsvariable 2 - 1 einzubringen, schreibt man die Variablen des 2. Zeitpunkts (Y12 und Y22) wie folgt Y12 = 11 + ( 12 - 11) + 12 Y22 = l220 + l221 *[ 11 + ( 12 - 11)] + 22 Man kann die eckige Klammer auflösen zu Y22 = l220 + l221 11 + l221*( 12 - 11) + o Diese letzte Form mit aufgelösten Klammern entspricht der bisher betrachteten Schreibweise und wird auch für Mplus benötigt. 22 - Die Ladung l221 taucht zwei Mal auf: Vor der latenten Variable 11 und vor der Differenzvariable 12 - 11). o Das bedeutet, dass die Ladungen von diesen beiden latenten Variablen auf Y22 (in Mplus) gleichgesetzt werden müssen. Entwicklung eines t-kongenerischen True-Change-Modells - Basierend auf der bisherigen Syntax des essentiell t-äquivalenten True-Change-Modells werden nun Ladungen frei geschätzt. Es ergibt sich folgende Syntax ETA1 BY CPM11@1; ETA1 BY CPM21*(l2); ETA1 BY CPM12@1; ETA1 BY CPM22*(l1); ETA2min1 BY CPM12@1; ETA2min1 BY CPM22*(l1); o Die Namen der Ladungen werden l1 und l2 (kleines L, keine 1) genannt. - Im Gegensatz zum 1. Modell muss jetzt für jede manifeste Variable eine neue Zeile verwendet werden, da anders als im 1. Modell Namen für die Ladungen vergeben werden. - Dieses Modell entspricht der Datei KlauerMethEval09_2.inp Output zum kongenerischen True-Change-Modell - Für die Kontrollgruppe ist der Fit des kongenerischen True-Change-Modells noch schlechter als der eines essentiell t-äquivalenten Modells (s.o. Output der Kontrollgruppe im Abschnitt zum 1. Modell). 3. Modell in Mplus: True-Change-Modell mit Methodenfaktor - Da bei den bisherigen Modellen der Fit (insbesondere in der Kontrollgruppe) schlecht war, werden wir im Folgenden einen Methodenfaktor einzuführen, was das Modell komplexer macht. - Bisher haben wir nur eine Truescore-Differenzvariable, die die Veränderungen der Truescores ausdrückt. Jetzt kommt zusätzlich ein Methodenfaktor hinzu, der personenspezifische Unterschiede zwischen den Testhälften zum gleichen Messzeitpunkt ausdrückt. - Die Teilnehmer entscheiden sich dafür, ein Modell ohne Referenzmethode zu entwickeln, die Ladungen des Methodenfaktors auf die Testhälften ist immer -1 auf die erste Hälfte und 1 auf die zweite Hälfte. 14 - Schöne Frage für Prüfungen ] Durch das Hinzufügen des Methodenfaktors verändert sich die Bedeutung der latenten Variable 1 . Sie entspricht dann 11 + 21 ) / 2 , also der Mittelwert der einzelnen True-Score-Variablen. Dies gilt, weil wir einen Methodenfaktor ohne Referenzmethode gewählt haben. Umsetzung eines True-Change-Modells mit Methodenfaktor in Mplus - Unter MODEL muss folgende Syntax stehen (entspricht der Datei KlauerMethEval09_3.inp ) ETA1 BY ETA1 BY ETA1 BY ETA1 BY ETA2min1 BY ETA2min1 BY METH BY CPM11@1; CPM21@1; CPM12@1; CPM22@1; CPM12@1; CPM22@1; CPM11@-1 CPM21@1 CPM12@-1 CPM22@1; [CPM11@0]; [CPM12@0]; [CPM21@0]; [CPM22@0]; [ETA1*]; [ETA2min1*]; [METH*]; - Die Intercepts der einzelnen Testhälften (CPM__) müssen auf 1 gesetzt werden, weil der Methodenfaktor diese bereits beeinflusst. Gleichzeitig muss der Mittelwert der Methodenfaktors frei geschätzt werden: [METH*] - Das oben dargestellte Modell entspricht nicht mehr einem t-kongenerischen Modell, da Prof. Steyer nur als letztes Mittel ein tkongenerisches Modell mit Methodenfaktor einsetzen würde. Möglicherweise wäre dieses bei der geringen Anzahl unserer empirischen Variablen auch gar nicht identifiziert. Output zum True-Change-Modell mit Methodenfaktor - Im Vergleich zum 2. Modell hat sich der Fit deutlich verbessert. Der Chi-Quadrat-Test ist nicht mehr signifikant, auch wenn der RMSEA höchstens einen befriedigenden Wert aufweist. Exkurs: True-Change-Modell mit Methodenfaktor und freien Mittelwerten - Auch in diesem 3. Modell gibt es natürlich Restriktionen, die einen noch besseren Fit verhindern können. So ist eine Restriktion eingebaut, die in den vorherigen beiden Modellen nicht gemacht wurde: Die 4 Mittelwerte der Tests werden nur aus drei Parametern vorhergesagt: 1 , 2 und dem Methodenfaktor o Damit postulieren wir aufgrund des Methodenfaktors, dass die Differenz der beiden Tests zu T1 die gleiche wie zwischen den beiden Tests zu T2 ist. o Um diese Restriktion zu entfernen, muss man eine Dreifach-Interaktion von Zeitpunkt, Test und Person zulassen. - In der Mplus-Syntax geschieht dies, indem man einen Intercept frei schätzen lässt; z.B. [CPM22@0]. Bisher sind alle auf 0 gesetzt. - Resultat: Im Output zeigt sich, dass der Fit und die Kennwerte der Varianzen sich durch diese Modifikation nicht wesentlich ändern. 4. Modell in Mplus: Mehrgruppenmodell - Bisher haben wir immer nur eine Gruppe (Kontroll- oder Experimentalgruppe) betrachtet. Da wir jetzt alle Fälle im Datensatz einbeziehen wollen, fällt im Vergleich zu den vorherigen Input-Files der Eintrag USEOBSERVATIONS ARE TRAINING == 1 bzw. 0 unter VARIABLE weg. - Wenn man das gleiche Modell auf beide Gruppen anwenden möchte, muss man zunächst nichts weiter an der Modellspezifikation (MODEL) verändern. o Diese Anwendung des 3. Modells auf beide Gruppen ergibt aber eine Mplus-Fehlermeldung, unrealistisch große Werte für Varianzen und Kovarianzen sowie einen sehr schlechten Fit. o Ursache hierfür könnte sein, dass in einer Gruppe ein Methodenfaktor enthalten ist, der gar keine Varianz hat und das Modell damit überparametrisiert ist. - Nachfrage der Studierenden: Wieso kann eine zusätzliche Freigabe oder ein Hinzufügen eines Parameters, z.B. des Methodenfaktors, den Fit eines Modells verschlechtern? o Antwort Prof. Steyer: Dies kann passieren, wenn es den Faktor, den man dem Modell hinzufügt, gar nicht gibt, d.h. er überflüssig ist. Ausschluss des Methodenfaktors für die Experimentalgruppe - Die im Folgenden beschriebene Syntax entspricht der Datei KlauerMethEval09_4.inp - Nur für die Experimentalgruppe wird die Varianz des Methodenfaktors aufgrund der oben ausgeführten Überlegungen auf 0 gesetzt über den Befehl METH@0 . Damit wird die Residualvarianz angesprochen, die in diesem Fall aber der Varianz entspricht, da kein weiterer Pfeil auf den Methodenfaktor geht. 15 o Zudem muss die Kovarianz des Methodenfaktors in der Experimentalgruppe auf 0 gesetzt werden über die Befehle METH WITH ETA1@0 und METH WITH ETA2min1@0 . - Die komplette Syntax des Abschnitts MODEL ist in der Datei KlauerMethEval09_4.inp nachzulesen und hier nicht aufgeführt, weil ihre Ausführung immer noch eine Fehlermeldung erzeugte. o [Die anscheinend immer noch vorhandenen Fehler in der Syntax wurden nicht mehr korrigiert, weil die Vorlesung zu Ende war.] C 4. Sitzung vom 05.05.2009: Analyse von True-Change-Modellen mit Mplus (Fortsetzung) Abstract der Sitzung - Zuerst wird die Syntax der vorherigen Sitzung korrigiert. - Anschließend werden mit dem so spezifizierten Modell verschiedene Hypothesen getestet. - Im dritten Schritt wird das Modell dann um eine weitere manifeste Variable (die Ergebnisse der Erstklässler im Culture Fair Test) erweitert. o Damit soll erklärt werden, warum sich wie zuvor festgestellt Personen von Zeitpunkt zu Zeitpunkt unterschiedlich stark verändern. - Am Ende der Sitzung wird kurz das Thema Wachstumskurven begonnen. Rückblick auf die letzte VL Inhaltliche Rekapitulation - In der vergangenen Stunde wurde ein Zweigruppen-Modell für den Klauer-Datensatz (der auf einer Studie zur Evaluation einer Intervention zur Förderung induktiven Denkens bei Grundschülern basiert) erstellt. In jeder Gruppe (Kontrollgruppe und Experimentalgruppe) gab es eine TrueChange-Variable zwischen den beiden Messzeitpunkten. - Dabei traten allerdings Fehler in der Syntax auf: Man hätte das Modell nicht nur in der Gesamtgruppe, sondern auch in jeder Teilgruppe spezifizieren müssen. Richtigerweise müsste das Modell wie folgt aussehen [siehe Abbildung]. o In der Experimentalgruppe wurde dem Methodenfaktor eine Varianz von Null zugewiesen, und ihm wurde auch keine Korrelation mit anderen latenten Variablen zugestanden. Daher wurde er in der Abbildung gestrichelt gezeichnet. Interpretation des Outputs und Hypothesentests - Das so spezifizierte Modell läuft fehlerfrei. Es hat einen guten Fit mit einem Chi-Quarat-Wert von 5.3 bei fünf Freiheitsgraden, passt also gut auf die Daten. - Nun kann man sich überlegen, welche inhaltlichen Hypothesen man mittels eines solchen Modells mit Veränderungsvariablen prüfen könnte. Hypothese 1: Varianzen der Change-Variablen - Die Differenzvariable sollte in der Experimentalgruppe eine größere Varianz haben als in der Kontrollgruppe. o Dies ist tatsächlich der Fall. In der Experimentalgruppe gibt es also größere interindividuelle Unterschiede in der Veränderung der TrueScores zwischen den Zeitpunkten. Dies legt nahe, dass es für verschiedene Personen unterschiedliche Treatment-Effekte gibt. Das Treatment und die Interaktion zwischen Person und Treatment sind also zusätzliche Varianzquellen. o Die Unterschiede zwischen den Zeitpunkten in der Kontrollgruppe (also die Tatsache, dass die Change-Variable überhaupt Varianz hat) könnten z.B. auf Reifung oder Lernen zurückzuführen sein. Außerdem stecken noch personenspezifische Situationseffekte im Methodenfaktor. - Die Hypothese der Verschiedenheit der Varianzen in den beiden Gruppen könnte man zwar mit einem F-Test prüfen. Einfacher geht es aber, indem wir die Varianzen im Input gleichsetzen (indem wir sie gleich benennen) und das Modell mit freien Varianzen dann gegen das Modell mit gleichgesetzten Varianzen testen. Dafür würde sich der Chi-Quadrat-Differenzentest eignen. o Dieses Vorgehen ergibt, dass die Modelle sich auf dem 5%-Niveau signifikant voneinander unterschieden würden. Die Varianzen der Change-Variablen in der Kontrollgruppe und Experimentalgruppe sind also nicht gleich. 16 Hypothese 2: Mittelwerte der Change-Variablen - Die Veränderung in der Experimentalgruppe sollte höher sein als in der Kontrollgruppe. Die Change-Variable sollte also ein der Experimentalgruppe einen höheren Mittelwert haben als in der Kontrollgruppe. o Und in der Tat: Der Mittelwert der Change-Variable liegt in der Kontrollgruppe bei 2.32, in der Experimentalgruppe beträgt er 4.92. § Der Unterschied zwischen beiden Werten könnte wieder mit einem Chi-Quadrat-Differenzentest auf Signifikanz getestet werden. Dafür würde man die Mittelwerte analog zum oben beschriebenen Vorgehen bei den Varianzen beiden Gruppen. gleich benennen: [ETA2min1*](mean)in · Dies kann man nun ohne die Restriktion gleicher Fehler wiederholen; dies macht jedoch praktisch keinen Unterschied der Unterschied der beiden Mittelwerte bleibt hoch signifikant. - Diese Hypothese könnte man auch ganz einfach testen, indem man die Change-Variablen der beiden Gruppen mit einem t-Test vergleicht. o Konzeptuell (und vom Ergebnis, dem p-Wert) wäre dies dasselbe wie eine ANOVA mit Messwiederholung, bei der man nach der Interaktion zwischen Gruppenvariable (Kontrolle vs. Experimentalgruppe) und dem Messwiederholungsfaktor schaut. Hypothese 3: Gleichheit der Mittelwerte der Ausgangswerte - Im Klauer-Datensatz geschah die Randomisierung auf Klassenebene, d.h. sie war nicht perfekt; es handelte sich um ein Quasi-Experiment. Um zu testen, ob sich der Vortest-Mittelwert der Kontrollklasse (Mh1=12.56) in ihrer Ausgangsleistung im Test signifikant von der Experimentalklasse (Mh1=11.61) unterscheidet, kann man wiederum diese beiden Mittelwerte gleich setzen und das Modell gegen die unrestringierte Version (d.h. mit freien Mittelwerten) testen. o In der Tat unterscheiden sich die Gruppen signifikant in ihrer Ausgangstestleistung voneinander, wenn auch die tatsächlichen Mittelwertsdifferenzen nicht allzu groß sein mögen. § Interessant wird dieser Unterschied, wenn wir daran, gehen, kausale Effekte modellieren zu wollen. Hypothese 4: Differenzielle Veränderungen - Es scheint so zu sein, dass sich einige Leute stärker verändern als andere. Dies gilt zum einen für diejenigen mit den niedrigeren Prätestwerten, wie die Unterschiede zwischen Kontroll- und Experimentalklasse nahe legen. Um zu eruieren, ob die Intervention unterschiedlich gut wirkt bzw. ob die Kinder sich auch ohne Intervention schon unterschiedlich stark verändern, muss man weitere Hypothesen testen. - In unserem Modell gibt es (vom Methodenfaktor in der K-Gruppe abgesehen) lediglich zwei latente Variablen, h1 und h 1, wovon die letztere die Differenzvariable ist. Daher kann man allein aufgrund der Kovarianz zwischen den beiden Variablen ersehen, ob ein Zusammenhang zwischen Ausgangswert und Stärke der Veränderung besteht. o Diese Kovarianzen (nicht: Korrelationen!) betragen 0.71 (E-Gruppe) und 0.65 (K-Gruppe). Beide Kovarianzen sind, wie man dem Output entnehmen kann, nicht signifikant von 0 verschieden. Folglich sind Unterschiede in der Veränderung nicht auf Unterschiede in den Ausgangswerten zurückzuführen. § Man könnte diese beiden Kovarianzen nun gleichsetzen, indem man in beiden Gruppen spezifiziert: ETA1 WITH ETA2min1 (cov1); Der Unterschied zwischen einem solchen Modell mit gleichgesetzten Kovarianzen und einem unrestringierten Modell ist gerade so signifikant. Änderung des Modells: Aufnahme des Culture Fair Tests (CFT) Grundgedanke - Nun soll noch eine weitere erklärende Variable aufgenommen werden, nämlich der Culture Fair Test (CFT). Wenn wir die Ausgangswerte der Kinder zum ersten Zeitpunkt in diesem Test zusätzlich aufnehmen, können wir vielleicht einen Grund für die Unterschiede in der Veränderung finden (d.h. eine Erklärung der Varianz der Differenzvariable) finden. o Dazu müssen wir die Regressionen der Veränderungsvariable auf die jetzt zwei latenten Variablen h1 und h3 und den Methodenfaktor rechnen. Dabei handelt es sich um die latenten Variablen zu den beiden manifesten Vortests-Teilen, einmal für die CPM und einmal für die CFT-Testhälften. § [Zur Illustration des Modells (allerdings nur für eine Gruppe) siehe rechte Skizze von Clemens. Der neu hinzugekommene Modellteil ist darin grün markiert.] Änderung der Syntax für das neue Modell - Als ersten Schritt muss man nun die CFT-Vortest-Variablen unter USEVARIABLES: aufnehmen. Die Gruppeneinteilung in (je ein Modell für Kontrollgruppe und Experimentalgruppe) bleibt gleich. 17 Regressionsgleichung der Veränderungsvariable - Jetzt müssen wir unter MODEL: die Regressionen der Veränderungsvariablen auf die latenten Variablen zum ersten Messzeitpunkt (Vortest) spezifizieren. Die latente Variable des CFT-Tests zum ersten Messzeitpunkt nennen wir, wie oben erwähnt, h3. Neben den beiden manifesten Variablen muss auch der Methodenfaktor als Regressor in die Gleichung aufgenommen werden; in der Experimentalgruppe hat er jedoch eine Varianz und einen Mittelwert von 0, was wir in den Regressionskoeffizienten auch angeben könnten. - Die gesamte Regressionsgleichung lautet dann: ETA2min1 ON ETA1; ETA2min1 ON ETA3; ETA2min1 ON METH; o Die Gleichung könnte man auch in eine Zeile schreiben man bräuchte dann nur ein On -Statement. Wir haben jedoch die mehrzeilige Schreibweise gewählt, damit wir gegebenenfalls einige Regressionskoeffizienten gleichsetzen oder gleich Null setzen können. Es handelt sich dennoch nicht um drei einfache Regressionen, sondern um eine dreifache! - Die Intercepts der ersten neuen Variablen muss auf 0 gesetzt werden durch CFT11@0; , damit die Lage der latenten Variable h3 fixiert ist. o Der zweiten Intercept wird dagegen frei geschätzt durch [CFT21*]; o Der Mittelwert dieser Variable ist frei zu schätzen durch [ETA3*]; Korrelationen - Das vorher eingeführte Statement, dass h1 mit h2-1 korrelieren soll, nämlich ETA1 WITH ETA2min1 (cov1) , muss wieder entfernt werden, da diese Kovarianz jetzt Teil der soeben spezifizierten Regression ist. - Ebenso soll der Methodenfaktor nicht mit den latenten Variablen korrelieren, weswegen wir spezifizieren: METH WITH ETA3@0; Gesamte Syntax - Der gesamte Input lautet dann wie folgt: MODEL: ETA1 ETA1 ETA1 ETA1 ETA3 BY BY BY BY BY CPM11@1; CPM21@1; CPM12@1; CPM22@1; CFT11@1 CFT21@1; ETA2min1 BY CPM12@1; ETA2min1 BY CPM22@1; METH BY CPM11@-1 CPM21@1 CPM12@-1 CPM22@1; ETA2min1 ON ETA1; ETA2min1 ON ETA3; ETA2min1 ON METH; [CPM11@0]; [CPM12@0]; [CPM21@0]; [CPM22@0]; [CFT11@0]; [CFT21*]; [ETA1*]; [ETA2min1*]; [ETA3*]; [METH*]; MODEL KGruppe: [CPM11@0]; [CPM12@0]; [CPM21@0]; [CPM22@0]; [CFT11@0]; [CFT21*]; [ETA1*](meaneta1); [ETA2min1*](mean1); [ETA3*]; [METH*]; ETA2min1 ON ETA1(beta1k); ETA2min1 ON ETA3(beta3k); ETA2min1 ON METH(beta2); ETA2min1*(sig1); MODEL EGruppe: [CPM11@0]; [CPM12@0]; [CPM21@0]; [CPM22@0]; 18 WITH ETA1@0; sowie METH [CFT11@0]; [CFT21*]; [ETA1*](meaneta2); [ETA2min1*](mean2); [ETA3*]; [METH*]; ETA2min1 ON ETA1(beta1e); ETA2min1 ON ETA3(beta3e); ETA2min1 ON METH@0; ETA2min1*(sig2); METH@0; METH WITH ETA1@0; METH WITH ETA3@0; Interpretation des Outputs - Das so spezifizierte Modell läuft fehlerfrei. Wir erhalten einen Chi-Quadrat-Wert von 15.2 bei 16 Freiheitsgraden. Dies ergibt einen p-Wert von 0.51 das Modell passt also gut auf die Daten. - Wir erhalten dann eine Ausgabe der Regressionskoeffizienten der Regression der Veränderungsvariable auf die drei anderen latenten Variablen (h1, h3 und Methodenfaktor), und zwar separat einmal für die K-Gruppe und einmal für die E-Gruppe: o Für die K-Gruppe sind alle drei Koeffizienten nicht signifikant von Null verschieden. o In der E-Gruppe ist allenfalls der erste Wert (Regressionskoeffizient des Regressors h1) marginal signifikant. - Die Nicht-Signifkanz der Regressionskoffizienten bedeutet, dass unser Modell zwar die Daten gut beschreibt, dass wir damit aber noch nicht erklären können, warum sich einige Personen stärker verändern als andere. o Interaktionen zwischen Regressoren sind in diesem Modell noch nicht vorgesehen; diese in Mplus zu spezifizieren ist zwar möglich, aber schwierig und soll daher nicht weiter versucht werden. § Stattdessen kommen wir jetzt zu einem neuen Thema: Jenem der Wachstumskurven. Lineare und nichtlineare Wachstumskurven als True-Change-Modelle Einführung in den Grundgedanken von Wachstumskurven Pfadmodell und Regressionsgleichungen bei linearem Wachstum - Wir stellen uns vor, wir hätten je zwei Messungen zu drei Messzeitpunkten [siehe Abbildung]. Dieses Modell erfassen wir mit zwei Veränderungsvariablen, den Methodenfaktor lassen wir weg. - Wie genau müssten wir das Modell nun spezifizieren, um die Hypothese zu testen, dass es lineares Wachstum über drei Zeitpunkte gibt? o Dieses Wachstum könnte für verschiedene Personen unterschiedlich stark sein (anderer Steigungskoeffizient), wäre aber für jede Person linear. - Betrachten wir das Modell der Abbildung, so würde die Regressionsgleichung für Y13 lauten: Y13= h1 +h2 h1 + e13 . o Dies wollen wir aber nicht ausdrücken. Stattdessen möchten wir folgende Gleichung verwenden: Y13= h1 +2*(h2 h1) + e13 . Damit hätten wir nämlich ausgedrückt, dass die Veränderung von Zeitpunkt zu Zeitpunkt gleich groß ist. § Entsprechend müssten an die Ladungspfeile von h1 auf die manifesten Variablen des dritten Zeitpunkts (Yi3) ein Wert von 2 geschrieben werden, an alle anderen hingegen 1. Pfadmodell und Regressionsgleichungen bei nicht-linearem Wachstum - Wollten wir zulassen, dass von zweiten zum dritten Zeitpunkt nicht-lineares Wachstum stattfindet, so könnte man eine weitere latente Variable einführen, welche die Differenz der Veränderung von Zeitpunkt 2 auf Zeitpunkt 3 zu der Veränderung von Zeitpunkt 1 auf Zeitpunkt 2 widerspiegeln würde. o Deren Inhalt würde, mathematisch ausgedrückt, also lauten: h3 (h1 +2*(h2 h1) . § Anders ausgedrückt: Die latente Variable würde die Abweichung vom linearen Wachstum ausdrücken. Agenda für die nächste(n) Sitzung(en) - Die beiden soeben besprochenen Modelle sind zwar einfache und bequeme, aber unübliche Arten, Wachstumskurvenmodelle zu spezifizieren. - In der nächsten Sitzung werden Möglichkeiten der Modellierung von Wachstumskurven besprochen. - In der übernächsten Sitzung kommen wir dann bereits zur Modellierung kausaler Effekte. 19 M 5. Sitzung vom 12.05.2009: Wachstumskurvenmodelle und ihre Analyse mit Mplus Abstract der Sitzung - Zuerst wird die Grundidee von Wachstumskurvenmodellen dargestellt: Unterschiede zwischen (Mess-)Werten werden als Veränderungen über die Zeit dargestellt. - Anschließend werden zwei verschiedene Kodierungsarten von Wachstumsmodellen vorgestellt und in Beispielen in Mplus berechnet. o Siehe auch Inhaltsverzeichnis unten INHALTSVERZEICHNIS Abstract der Sitzung.................................................................................................................................................................................20 Rückblick auf die letzte VL ..................................................................................................................................................................20 Wachstumskurvenmodelle........................................................................................................................................................................20 Grundidee ............................................................................................................................................................................................20 Kodierung 0, 1, 2..................................................................................................................................................................................21 Kodierung 1, 0, +1..............................................................................................................................................................................22 Beispiel mit Kodierung 0, 1, 2 ..............................................................................................................................................................23 Beispiel mit Kodierung 1, 0, +1 ..........................................................................................................................................................24 Inhaltliches Fazit zu Wachstumsmodellen allgemein .............................................................................................................................26 Umsetzung von Wachstumsmodellen in Mplus......................................................................................................................................26 Rückblick auf die letzte VL - In der letzten Sitzung haben wir uns mit True-Change-Modellen beschäftigt und am Ende der Sitzung die ersten Überlegungen dargestellt, wie wir Wachstumskurvenmodelle darstellen können. Dies haben wir noch in der Terminologie von True-Change-Modellen getan. - Wenn wir beispielsweise ein lineares Wachstum postulieren, bedeutet dies, dass die Veränderung für jede Person, zwischen zwei Zeitpunkten immer gleich groß ist. o Lineares Wachstum auf 3 Messzeitpunkte bezogen: Die Veränderung zwischen t1 und t2 ist genauso groß wie zwischen t2 und t3. Dafür lädt die Veränderungsvariable dann auch auf alle Zeitpunkte. § Sollte das Wachstum nicht linear sein, könnte man eine weitere Veränderungsvariable hinzufügen, die sich dann auf den 3. Zeitpunkt auswirkt, um die Abweichung von der linearen Veränderung darstellt. Wachstumskurvenmodelle - Heute werden wir Wachstumskurvenmodelle nicht analog zu True-Change-Modellen modellieren (wie am Ende der letzten Sitzung geschehen), sondern eine konventionellere Form der Kodierung verwenden. Einleitende Überlegungen und Parallelen zu True-Change-Modellen - Die Grundidee ist aber die gleiche: Man möchte fehlerbereinigte Wachstumskomponenten haben, die latente Varianten sind. - Dabei gibt es mehrere Variablen, ähnlich dem Ansatz aus der letzten Sitzung (Wachstumskurven als True-Change-Modelle): o Eine für den Ausgangswert bzw. je nach Kodierung Schlusswert oder Referenzwert. Sie legt also den Level fest. o Eine für lineares Wachstum. o Eine für quadratisches Wachstum. - Ziel ist es, eine latente Variable zu haben, die man als das lineare Wachstum interpretieren kann. Anschließend kann man dann beispielsweise schauen, ob sich diese Wachstumsvariable in verschiedenen Treatment-Bedingungen unterscheidet. Grundidee - Im Vergleich zur Darstellung als True-Change-Modell ist die Grundidee eine andere: Man betrachtet Funktionen über die Zeit. o Wenn man drei Zeitpunkte hat, muss es eine quadratische Funktion der Zeit sein , weil man durch drei Punkte immer eine quadratische Funktion legen kann. o Entsprechend müsste es bei 4 Messzeitpunkten eine kubische Funktion der Zeit sein. - Wie kodiert man die Zeit? Es könnte eine kontinuierliche Funktion sein, oder man nutzt wie hier diskrete Variablen und sagt beispielsweise 0 für den 1. Zeitpunkt, 1 für den 2. Zeitpunkt und 2 für den 3. Zeitpunkt. o Natürlich kann man auch andere Kodierungen verwenden: Statt 0, 1, 2 beispielsweise 1, 0, 1 20 § Im Laufe der heutigen Sitzung werden wir noch besprechen, welche Konsequenzen unterschiedliche Kodierungen für die Interpretation der Parameter haben. Gleichungen Betrachtung von personenspezifischen States - Von der Folie: Für 3 Zeitpunkte kann jeder state h1(u) einer Person u zum Zeitpunkt t als eine quadratische Funktion der Zeit mit den personenspezifischen Koeffizienten p0(u), p1(u) und p2(u) berechnet werden. Bei 3 Zeitpunkten t1, t2 und t3 ergeben sich die Gleichungen: - Erläuterungen: o Die 1. Gleichung steht für den Wert der Person u auf zum 1. Zeitpunkt. Dieser setzt sich zusammen aus einer einer LevelKomponente p0(u) (englisch: initial ), einer linearen Wachstumskomponente p1(u) ( linear ) und einer quadratische Wachstumskomponente p2(u) ( quadratic ). § Dementsprechend stehen die 2. bzw. 3. Gleichung für die Werte zum 2. bzw. 3. Zeitpunkt dieser Person u. o Jede Person u hat also einen Satz von Parametern, der ihre Veränderung über die Zeit ausdrückt. Gleichungen Betrachtung von latenten Variablen - Von der Folie: Unter Annahme eines Zufallsexperiments, in dem eine Person aus einer Population gezogen wird, sind die personenspezifischen Koeffizienten p0(u), p1(u) und p2(u) die Werte der 3 Zufallsvariablen p0, p1 und p2. Bei 3 Zeitpunkten t1, t2 und t3 ergeben sich die Gleichungen: - Erläuterungen: o Nun werden latente Variablen betrachtet, weshalb das personenspezifische u verschwindet [im Vergleich zur letzten Abbildung mit Gleichungen]. Die Werte jeder Person auf diesen latenten Variablen machen dann wieder das personenspezifische Wachstum aus. o ht sind latente State-Variablen, die wir in vorherigen Sitzungen meist durch mehrere Indikatoren wie Y1t und Y2t erklärt haben. Nun werden die latenten Variablen eben anders zerlegt , d.h. erklärt, wodurch andere Interpretationen möglich sind. § Zustände (states) werden nach diesem Ansatz parametrisiert als die drei Komponenten Level, lineare Veränderung und quadratische Veränderung. Kodierung 0, 1, 2 - Bei diesem Ansatz werden die drei betrachteten Zeitpunkte als 0, 1 und 2 kodiert. - Erläuterungen: o Vom oberen zum unteren Block von Gleichungen auf der oben abgebildeten Folie gelangt man, indem man die Kodierungen für den Zeitpunkt einsetzt, d.h. jedes ti wird durch den zugewiesenen Wert ersetzt: § 0 in die 1. Gleichung, weil diese den 1. Zeitpunkt beschreibt § 1 in die 2. Gleichung, weil diese den 2. Zeitpunkt beschreibt § 2 in die 3. Gleichung, weil diese den 3. Zeitpunkt beschreibt o Für den Zeitpunkt 1 gibt es nur die Level-Komponente, alle anderen Terme werden 0. 21 Kodierung 0, 1, 2 Übersetzung in ein Pfaddiagramm - In der Mitte sieht man die latenten State-Variablen h und rechts weitere latente Variablen p, die das Wachstum beschreiben. o Das oben dargestellte Modell ist von links bis zu den h-Variablen ein kongenerisches Multi-State-Modell, wie wir es schon aus der Latent-State-Trait-Theorie kennen. - Solange dieses Modell saturiert ist, gibt es keine Residuen auf die h-Variablen. o Saturiert bedeutet, dass alle Veränderungen dieses Modells mit 3 Zeitpunkten (States, h) durch die drei latenten Wachstumsvariablen (p) perfekt vorhergesagt werden können. Dies entspricht 3 Punkten in einem Koordinatensystem, die durch eine quadratische Funktion immer perfekt beschrieben werden können. o In der Praxis werden diese Modelle aber normalerweise nicht haargenau gelten, weshalb es durchaus Residuen der p-Variablen geben kann. o In Signifikanztests muss man dann überprüfen, ob die Passung eines eingeschränkten Modells (z.B. nur 2 p-Variablen bei 3 Messzeitpunkten, d.h. die Unterstellung lediglich linearen Wachstums) die Daten signifikant schlechter beschreibt als ein saturiertes Modell. - Erläuterungen zu den einzelnen Pfaden des oben dargestellten Diagramms: o Auf h1 lädt entsprechend der Gleichung nur die latente Variable p0. Deshalb sind die Pfeile von p2 und p3 auf h1 alle mit einer Ladung von 0 versehen. o Auf h2 laden entsprechend der Gleichung alle drei p-Variablen mit 1. o Auf h3 lädt entsprechend der Gleichung die latente Variable p0. mit 1, die latente Variable p1 mit 2 und p2 mit 4 (wegen der Quadrierung von 2). - Diese Ladungen ergeben sich aufgrund der oben dargestellten Gleichungen und der festgelegten Kodierung der Zeitpunkte (hier: 0, 1, 2). Kodierung 1, 0, +1 - Anders als bei der letzten Kodierung ist die Gleichung, in der lediglich das Level p0 steht, jetzt nicht mehr der Anfangszustand, sondern der mittlere der drei Zeitpunkte 22 Kodierung 1, 0, +1 Übersetzung in ein Pfaddiagramm - Entspricht den obigen Gleichungen, nicht weiter erläutert. Beispiel mit Kodierung 0, 1, 2 - [Man könnte auch sagen, dass es in der Aufgabe darum geht, drei zusammengehörige Punkte in einem Koordinatensystem durch eine Funktion zu verbinden und die Terme dieser Funktion in Mittelstufenmathematik ausgedrückt f(x)=a+b*x+c*x² zu berechnen. Dafür muss man ein Gleichungssystem lösen] - Dabei könnte man, um die Interpretation deutlich zu machen, auch die p durch ihre Bedeutungen ersetzen, d.h. in den Gleichungen schreiben o initial statt p0 o linear statt p1 o quadratic statt p2 § [Diese Schreibweise wurde auf den in der Vorlesung gezeigten Folien (nicht aber auf den online gestellten) ab hier durchweg verwendet, sagt aber genau das Gleiche aus.] Lösung für Person 1 bei Kodierung 0, 1, 2 - Die folgende Folie zeigt, wie man das Gleichungssystem mit 3 unbekannten Variablen auflöst und ist reine Mittelstufen-Mathematik. o [In der Vorlesung wurde der Rechenweg nur schnell mündlich vorgerechnet .] 23 Lösung für Person 2 bei Kodierung 0, 1, 2 - Somit sind jetzt alle Komponenten für beide Personen gelöst: o Für Person 1: p0 =6 p1 =0,5 p2 =2,5 o Für Person 2: p0 =8 p1 =1 p2 = 2 - Die vermeintlich lineare Komponente ist hier positiv. Allerdings sieht man in den Daten, dass die Person 2 die Latent-State-Werte hat, d.h. eine sinkende Tendenz über die Zeit und keinerlei Wachstum. o Der Term p1 =1 suggeriert nun, dass die Person 2 lineares Wachstum habe, dies ist aber eindeutig nicht der Fall, wenn man sich die Werte anschaut. - [Anmerkung Moritz: Ein saturiertes Modell löst das Gleichungssystem natürlich (mathematisch korrekt) auf, aber die Interpretationen, die aus diesem Modell gezogen werden, sind falsch. Denn p1 soll ja etwas über für die lineare Veränderung aussagen.] o Ebenso Anmerkung eines Studenten: Die Fehlinterpretation kommt aber nur zu Stande, wenn man sich allein auf den linearen Term stützt. Denn die gesamte Gleichung beschreibt die Werte ja nach wie vor korrekt. § Prof. Steyer daraufhin abermals: Das Resultat dieser Kodierung ist falsch, weil daraus für Person 2 die Interpretation folgen würde, dass ihre Werte wachsen. Beispiel mit Kodierung 1, 0, +1 - Weil die Resultate der eben gewählten Kodierung (0, 1, 2) falsch bzw. irreführend waren, wählen wir nun für die gleichen Daten eine andere Kodierung 24 Einschub: Lösungen für beide Kodierungen - Die untenstehende Abbildung dient an dieser Stelle der Übersichtlichkeit und stellt in komprimierter Form dar: o Die Ausgangsdaten (obere Tabelle) o Die Lösungen der Kodierung 0, 1, 2 (mittlere Tabelle) o Die Lösungen der Kodierung 1, 0, 1 (untere Tabelle), die im Folgenden noch entwickelt werden. o Lösung für Person 1 bei Kodierung 1, 0, +1 - Die lineare Komponente ist 5,5 , d.h. der durchschnittliche lineare Anstieg von einem Zeitpunkt zum nächsten beträgt 5,5 Einheiten. Dies beschreibt die Daten sehr gut, da die Werte sind: 6 (zu t1), 9 (zu t2) und 17 (zu t3), d.h. insgesamt ein Anstieg um 11 Einheiten. Lösung für Person 2 bei Kodierung 1, 0, +1 - Die lineare Komponente ist 3 , d.h. der durchschnittliche lineare Abfall von einem Zeitpunkt zum nächsten beträgt 3 Einheiten. Dies beschreibt die Daten sehr gut, da die Werte sind: 8 (zu t1), 7 (zu t2) und 2 (zu t3), d.h. insgesamt ein Abfall um 6 Einheiten. 25 Fazit zu den Übungsaufgaben (für Personen 1 und 2) o Auf der Grafik sind oben die Werte dargestellt, unten die Lösungen für die jeweiligen Kodierungen. - Bei Kodierung mit -1, 0, +1 beschreibt die lineare Komponente jeweils die durchschnittliche lineare Veränderung. Die quadratische Komponente beschreibt die Abweichung von diesem Durchschnittswert. - Im Gegensatz zur Kodierung 0, 1, 2 sind bei der Kodierung -1, 0, +1 die Komponenten jeweils interpretierbar (d.h. lineare Komponente als lineares Wachstum und quadratische Komponente als quadratisches Wachstum) und man muss nicht immer das gesamte Gleichungssystem betrachten. - Frage einer Studentin: Kann man sich auf die Kodierung mit -1, 0, +1 verlassen? Führt sie also immer zu einer adäquaten Interpretation der Komponenten? o Antwort: Das kommt auf die Anzahl der Zeitpunkte an. In der Prüfungsliteratur ist ein Artikel hierzu vorhanden. § Diese Übungsaufgaben sollten uns dafür sensibilisieren, dass man auf die Kodierung achten muss. Inhaltliches Fazit zu Wachstumsmodellen allgemein - Ohnehin haben wir das Thema Wachstumskurven nur angerissen: Man kann Wachstum natürlich auch exponentiell modellieren, die Zeit muss nicht als diskrete Variable verstanden werden, sondern kann als kontinuierlich modelliert werden, etc. o Die Möglichkeiten böten Stoff für ein ganzes Semester . - Die Verwendung von Wachstumskurvenmodellen macht insbesondere dann Sinn, wenn es wirklich um Wachstum geht, z.B. in der Biologie. In der Psychologie betrachtet man aber laut Prof. Steyer normalerweise Veränderungen zwischen zwei (oder auch mehreren) Zeitpunkten, wobei es gar nicht um Wachstum geht. o Sinnvoll ist die Verwendung vor allem bei exponentiellem Wachstum, weil man dann mit sehr wenigen Parametern eine anders kaum adäquat zu beschreibende Kurve sparsam in ein Modell fassen kann. Ganz anders in den heute betrachteten Beispielen: Für 3 Zeitpunkte führen wir 3 Variablen ein: Wir haben also nix gewonnen. o Stärken haben Wachstumskurvenmodelle weiterhin, wenn es darum geht zu intrapolieren, d.h. Aussagen über Werte zwischen Messzeitpunkten zu machen oder zu extrapolieren, d.h. Vorhersagen zu treffen. Umsetzung von Wachstumsmodellen in Mplus - Verwendet wird ein Datensatz, der auch schon einmal im letzten Semester zum Einsatz kam, in dem das Wohlbefinden anhand von Items zu guter und schlechter Stimmung abgefragt wird. Dies geschieht eigentlich in 4 Messzeitpunkten, wir werden aber analog zu den vorherigen Beispielen nur 3 Zeitpunkte betrachten. Syntax: Ausgewählte Variablen - VARIABLE: NAMES ARE ! Variablennamen sex age t1time rauch t2time t3time t4time GS_11 GS_21 GS_31 GS_41 GS_12 GS_22 GS_32 GS_42 GS_13 GS_23 GS_33 GS_43 GS_44 GS_14 GS_24 GS_34 Alter G1 G2; MISSING IS sex age t1time rauch t2time t3time t4time GS_11 GS_21 GS_31 GS_41 GS_12 GS_22 GS_32 GS_42 GS_13 GS_23 GS_33 GS_43 GS_14 GS_24 GS_34 GS_44 Alter G1 G2 (999); USEVARIABLES ARE GS_11 GS_21 GS_12 GS_22 GS_13 GS_23 ; 26 - Unter NAMES ARE werden alle Variablen aufgeführt (für uns eher unwichtig), unter USEVARIABLES aber müssen wir die uns interessierenden Variablen auswählen: Aus Einfachheitsgründen hier nur 2 Indikatoren pro Zeitpunkt und auch nur 3 der 4 vorhandenen Zeitpunkte. Generelle Anmerkung zu Wachstumskurvenmodellen - In Wachstumskurvenmodellen gibt es pro Zeitpunkt nur eine Messung, was aus der Tradition (oder der Not ) heraus kommt. Dies ist laut Prof. Steyer unschön , weil man nicht die Messfehler isolieren kann, wie man dies beispielsweise im Multi-State-Modell tun kann. Stattdessen erfolgt die Zerlegung in Wachstum und Messfehler auf einmal. o Wenn man nur eine Messung pro Zeitpunkt hat, kann man bei 3 Messzeitpunkten nur maximal ein lineares Wachstumsmodell ansetzen. Alles was nicht diesem linearen Wachstum gehorcht, wird als Messfehler betrachtet. Dies ist nicht nur unplausibel, sondern man kann die Hypothese der Linearität nicht einmal überprüfen. o Deshalb ist Prof. Steyers Rat: Mindestens 2 Messungen pro Zeitpunkt machen, um zunächst den Messfehler herausfiltern zu können mit einem Multi-State-Modell und erst anschließend ein Wachstumskurvenmodell aufzusetzen. Syntax: Essentielles Multi-State-Modell - Zunächst wird ein reines essentiell-t-äquivalentes Multi-State-Modell spezifiziert, wie wir es bereits kennen. [Im weiteren Verlauf wird es modifiziert werden.] Per Default dürfen die hi in diesem Modell miteinander kovariieren. - MODEL: ETA1 BY GS_11@1 GS_21@1; ETA2 BY GS_12@1 GS_22@1; ETA3 BY GS_13@1 GS_23@1; GS_11*; ! Fehlervarianzen GS_21*; ! zu Zeitpunkt 1 GS_12*; ! Fehlervarianzen GS_22*; ! zu Zeitpunkt 2 GS_13*; ! Fehlervarianzen GS_23*; ! zu Zeitpunkt 3 ETA1@0; ETA2*; ETA3*; [ETA1*]; [ETA2*]; [Kommentar von C hier: Warum wird ETA1@0 gesetzt? Wie wird außerdem die Lage ETAs fixiert dazu müsste man doch jeweils einen Intercept je Zeitpunkt (z.B. GS_11) @0 setzen? Ist die Syntax einfach nicht komplett, wie ich vermute? ] [ETA3*]; - Dieses Modell ergibt einen eher schlechten Fit: Chi-Quadrat-Wert von 39, bei df=9. Auch der RMSEA ist schlecht. o Deshalb wird im Folgenden das Modell modifiziert Syntax: Kongenerisches Multi-State-Modell - Hierzu muss man die Ladungen der hi frei setzen, d.h. die Veränderung im Vergleich zur vorherigen Syntax ist - MODEL: ETA1 BY GS_11@1 GS_21; ETA2 BY GS_12@1 GS_22; ETA3 BY GS_13@1 GS_23; - Das Modell ist aber identifiziert. [Prof. Steyer rechnet/murmelt hierzu schnell die Anzahl der Parameter durch.] o Dennoch gibt es eine negative Fehlervarianz, was eigentlich nicht vorkommen dürfte und der Fit bleibt schlecht. Syntax: Multi-State-Modell mit Methodenfaktor - Um den Fit zu verbessern, wird im Folgenden ein Methodenfaktor eingeführt. Als Kodierung wird 1 und 1 (Modell ohne Referenzmethode) gewählt, wodurch der Methodenfaktor immer die Abweichung vom Mittelwert der beiden Messungen zu einem Zeitpunkt beschreibt. o Wegen des eingeführten Methodenfaktors müssen die Ladungen der Indikatoren auf die latenten Variablen auf 1 gesetzt werden. o Wegen des Methodenfaktors müssen zudem die Mittelwerte der manifesten Variablen auf 0 gesetzt werden - MODEL: ETA1 BY GS_11@1 - GS_21@1; ETA2 BY GS_12@1 GS_22@1; 27 ETA3 BY GS_13@1 GS_23@1; METH BY GS_11@-1 GS_21@1 GS_12@-1 GS_22@1 GS_13@-1 GS_23@1; GS_11*(s1); ! Fehlervarianzen GS_21*(s2); ! zu Zeitpunkt 1 GS_12*(s1); ! Fehlervarianzen GS_22*(s2); ! zu Zeitpunkt 2 GS_13*(s1); ! Fehlervarianzen GS_23*(s2); ! zu Zeitpunkt 3 ETA1@0; ETA2@0; ETA3@0; [GS_11@0]; [GS_21@0]; [GS_12@0]; [GS_22@0]; [GS_13@0]; [GS_23@0]; [ETA1@0]; [ETA2@0]; [ETA3@0]; [METH*]; - Der Model Fit ist immer noch nicht befriedigend, wird aber aufgrund des nahenden Endes der Vorlesung nicht weiter verbessert. Schließlich waren alle Überlegungen hierzu lediglich ein Vorspiel und es geht eigentlich darum, ein Wachstumskurvenmodell in Mplus darzustellen. Syntax: Einführung der Wachstumsvariablen - In das oben dargestellte Modell werden jetzt zusätzlich drei p Variablen eingeführt, wobei wir die zweite Kodierungsvariante ( 1, 0, +1) wählen. o Die neu hinzugekommenen Teile der Syntax sind fett gedruckt. - MODEL: - ETA1 BY GS_11@1 ETA2 BY GS_12@1 GS_22@1; ETA3 BY GS_13@1 GS_23@1; GS_21@1; METH BY GS_11@-1 GS_21@1 GS_12@-1 GS_22@1 GS_13@-1 GS_23@1; PI0 BY ETA1@1 ETA2@1 ETA3@1; PI1 BY ETA1@-1 ETA2@0 ETA3@1; PI2 BY ETA1@1 ETA2@0 ETA3@1; GS_11*(s1); ! Fehlervarianzen GS_21*(s2); ! zu Zeitpunkt 1 GS_12*(s1); ! Fehlervarianzen GS_22*(s2); ! zu Zeitpunkt 2 GS_13*(s1); ! Fehlervarianzen 28 GS_23*(s2); ! zu Zeitpunkt 3 ETA1@0; ETA2@0; ETA3@0; [GS_11@0]; [GS_21@0]; [GS_12@0]; [GS_22@0]; [GS_13@0]; [GS_23@0]; [PI0*] ; [PI1*] ; [PI2*] ; [ETA1@0]; [ETA2@0]; [ETA3@0]; [METH*]; - Da es keine erklärenden Variablen für p gibt, sind die Achsenabschnitte gleich den Mittelwerten. In den Gleichungen, wie wir sie in obigen Beispielen betrachtet haben, haben wir immer die Mittelwerte der drei p-Variablen berechnet; sie dürfen also nicht auf 0 gesetzt werden, sondern müssen (wie in obiger Syntax) frei geschätzt werden. o Stattdessen müssen die Mittelwerte der h-Variablen auf 0 gesetzt werden. - Die Varianzen der h-Variablen müssen ebenfalls auf 0 gesetzt werden, sonst kann Mplus das Modell nicht rechnen. [Eine inhaltliche Begründung wurde aufgrund von Zeitmangel nicht gegeben.] Interpretation des Outputs - [Aufgrund von Zeitmangel wurde nur kurz gesagt, auf was man achten sollte ] - Die Mittelwerte der p-Variablen lassen sich aus dem Output unter Means problemlos ablesen, was der Berechnung von Hand aus den obigen Beispielen entspricht. - Wenn die Varianzen der p-Variablen ungleich 0 sind, ist dies ein Beleg für die Existenz dieser Variablen. o Wenn aber die Varianz von p3 = 0 oder zumindest sehr klein ist, deutet dies darauf, dass es keine quadratische Komponente des Wachstums gibt und ein lineares Modell wahrscheinlich ausreichend wäre. M 6. Sitzung vom 19.05.2009: Einführung in die Kausalitätstheorie: Das Simpson Paradox und seine Konsequenzen Aufgrund einer Dienstreise wird Prof. Steyer heute von Steffi Pohl vertreten. Abstract der Sitzung INHALTSVERZEICHNIS Stand der Vorlesung .............................................................................................................................................................................30 Experiment vs. Quasiexperiment ..............................................................................................................................................................30 Simpson-Paradox .....................................................................................................................................................................................31 Unbedingter Prima Facie Effekt (uncondicitonal prima facie effect).......................................................................................................31 29 Bedingter Prima Facie Effekt (conditional prima facie effect) ................................................................................................................32 Über Z gemittelter Prima Facie Effekt (Average prima facie effect with respect to Z) .............................................................................33 Zusammenfassung von Prima Facie Effekten beim Simpson-Paradox ....................................................................................................33 Nonorthogonale Varianzanalyse ...............................................................................................................................................................34 Unbedingte Prima Facie Effekte............................................................................................................................................................34 Bedingte Prima Facie Effekte ...............................................................................................................................................................34 Über Z gemittelter Prima Facie Effekt...................................................................................................................................................35 Zusammenfassung von Prima Facie Effekten bei nonorthogonaler Varianzanalyse .................................................................................35 Übersicht Prima Facie Effekte ..................................................................................................................................................................35 - In Ergänzung zum obigen Inhaltsverzeichnis: o In der heutigen Sitzung geht es um Effekte von Quasi-Experimenten, die nicht kausal interpretiert werden dürfen, obwohl dies oftmals geschieht. o Prima Facie Effekte (PFE), die bedingt oder gemittelt sind, berücksichtigen Kovariaten und ermöglichen so eine Annäherung an die kausalen Effekte. Stand der Vorlesung - Die Vorlesung dieses Semester ist in drei große Blöcke aufgeteilt, von denen wir die ersten beiden bereits absolviert haben: o 1.) Intraindividuelle Veränderung § Reliable-Change-Index o 2.) Interindividuelle Unterschiede in der intraindividuellen Veränderung § Latent-Change-Modelle (Mplus) § Wachstumskurvenmodelle (Mplus) o 3.) Kausalitätsforschung § Grundbegriffe § Analyse durchschnittlicher Effekte (EffectLite) § Analyse individueller Effekte (Mplus) - In dem nun beginnenden Block der Kausalitätsforschung geht es um die Frage, ob gefundene Effekte wirklich auf das Treatment zurückgeführt werden können. Wozu Kausalitätstheorie? - Die heutige Sitzung entspricht exakt dem 1. Kapitel des englischsprachigen Buches Probability and Causality von Rolf Steyer, Ivailo Partchev, Ulf Kröhne, Benjamin Nagengast & Christiane Fiege. o Die Kapitel 1 und 2 stehen auf der Website zu dieser Vorlesung zum Herunterladen zur Verfügung. Experiment vs. Quasiexperiment - Den Unterschied zwischen Experiment und Quasiexperiment hat Steffi Pohl untersucht. Die Studie wird im Folgenden dargestellt. Beispiel: Englisch-Training Aufbau der Untersuchung - N=202 Personen, die zwei Gruppen (Experiment & Quasiexperiment) zugewiesen wurden o N=99 Experiment. In dieser Gruppe wurde gelost, ob man ein Treatment bekam oder der Kontrollgruppe angehörte und es ergaben sich § N=44 in der Treatment-Gruppe, die ein Englisch-Training erhielt § N=55 in der Kontrollgruppe, die ein Mathe-Training erhielt o N=103 Quasiexperiment. In dieser Gruppe durften sich die Teilnehmer selber aussuchen, welche Art von Training sie erhalten möchten. § N=46 entschieden sich für ein Englisch-Training und bildeten die Experimentalgruppe · Die Mitglieder dieser Gruppe (Erstsemester Psychologie) waren vor dem Treatment schlechter in Englisch als die der Kontrollgruppe, weil sich vor allem solche Studierenden für das Englisch-Training anmeldeten, die Defizite hatten. § N=55 entschieden sich für ein Mathe-Training und bildeten die Kontrollgruppe. Beispiel Englisch-Training Ergebnisse - In der Experiment-Bedingung: Die Treatment-Gruppe hatte nach der Durchführung der Trainings minimal bessere Englisch-Kenntnisse als die Kontrollgruppe. - In der Quasiexperiment-Bedingung: Die Treatment Gruppe hatten nach der Durchführung der Trainings schlechtere Englisch-Kenntnisse als die Kontrollgruppe, obwohl sie ja in Englisch trainiert wurde. o Ursache hierfür ist, dass die Gruppen von Anfang an nicht gleich waren: Die Treatment-Gruppe hatte schon vor den Trainings deutlich schlechtere Englisch-Kenntnisse als die Kontrollgruppe. 30 o Man könnte daraus den Schluss ziehen, dass das Englisch-Training sogar schaden würde. Beispiel Englisch-Training Diskussion - In vielen Studien werden keine über Experimente durchgeführt, sondern es sind nur Quasiexperimente möglich. o Beispiel: Wenn man den Effekt von Tabakkonsum untersucht werden soll, kann man Personen nicht zufällig zur Bedingung Raucher vs. Nichtraucher zuweisen. - Eigentlich lassen sich allein aus Experimenten kausale Schlüsse ziehen; sie sind der Goldstandard , der nicht immer erreichbar ist. Gegenstand der Kausalitätsforschung ist unter anderem, wie man auch aus Quasiexperimenten, die oftmals erforderlich sind, kausale Schlüsse ziehen kann. - In ihrer Studie zum Englisch-Training hat Frau Pohl beispielsweise Kovariaten wie die Englisch-Kenntnisse vor Beginn des Trainings und die Vorliebe für Englischunterricht einbezogen. o Damit ergab sich in der Quasiexperiment-Bedingung, dass die Treatment-Gruppe nach dem Training nur noch minimal schlechtere Englisch-Kenntnisse hatte als die Kontrollgruppe. Zusammenfassung - Experimente sind der Idealfall: In ihnen werden die Probanden zufällig den Treatmentbedingungen zugewiesen. o Somit unterscheiden sich die Treatmentgruppen nicht systematisch voneinander. o Dadurch sind durchschnittliche kausale Effekte schätzbar. - Aber Experimente sind nicht immer anwendbar. Deshalb bedarf es Quasiexperimente, die aber verschiedene Probleme mit sich bringen. o Beispielsweise kann es wie im obigen Beispiel zum Englisch-Training zur Selbstselektion kommen. o Deshalb können die geschätzten Effekte verfälscht sein und es müssen Kovariaten erhoben und berücksichtigt werden. Simpson-Paradox [Ab Minute 14 des Videos führt Frau Pohl die Simpson-Waage vor: Eine von einer studentischen Hilfskraft vor 2 Jahren gebastelte Waage, die das Simpson-Paradox verdeutlichen soll.] Beispiel: Simpson-Waage - Es geht in dem an der Simpson-Waage verdeutlichten Beispiel um die Effekte von Psychotherapie auf psychische Beschwerden. - Es gibt 10 Männer und 10 Frauen in der Population, wobei die Frauen deutlich mehr psychische Beschwerden haben als die Männer. o 8 der 10 Frauen suchen eine Therapie auf, von den 10 Männern aber nur 2. o In der Nicht-Therapie -Gruppe befinden sich dementsprechend 8 Männer und 2 Frauen. - Dadurch ist der Mittelwert von psychischen Beschwerden für die Therapie-Gruppe höher als für die Nicht-Therapie -Gruppe. o Man könnte schlussfolgern, dass die Therapie keinen Nutzen hat oder sogar schadet. - Wenn man sich aber die beiden Gruppen nach Geschlechtern getrennt anschaut, ergibt sich ein anderes Bild: o Männern, die in der Therapie-Bedingung sind, geht es besser als Männern in der Nicht-Therapie -Bedingung. o Frauen, die in der Therapie-Bedingung sind, geht es besser als Frauen in der Nicht-Therapie -Bedingung. - Somit könnte man scherzhaft sagen: Die Therapie wirkt für Männer und für Frauen, aber Menschen schadet sie. o Wenn man die Geschlechter getrennt betrachtet, wirkt die Therapie. Bei gemeinsamer Betrachtung dreht sich der Effekt aber um, weil Frauen, denen es ja generell schlechter geht, überdurchschnittlich häufig in der Therapie-Bedingung vertreten sind. - Das Beispiel verdeutlicht, dass man Mittelwertsunterschiede nicht für bare Münze nehmen sollte, sondern immer hinterfragen muss. Unbedingter Prima Facie Effekt (uncondicitonal prima facie effect) - Prima Facie bedeutet auf den ersten Blick und vergleicht den Effekt eines Treatments im Vergleich zur Kontrollgruppe. o Der unbedingte Prima Facie Effekt betrachtet nur Unterschiede zwischen Treatment-Gruppen und bezieht noch keine Subgruppen und Kovariaten in die Berechnungen ein. - In Kapitel 1 des Buches Probability and Causality ist hierzu ein hypothetisches Beispiel aufgeführt. o Es geht um den Behandlungserfolg (Y=1 Erfolg, Y=0 kein Erfolg), je nachdem ob ein Treatment durchgeführt wurde (X=1 Treatmentgruppe, X=0 Kontrollgruppe). Als Kovariate wird Geschlecht (0=männlich, 1=weiblich) betrachtet. - In Table 1.1. sind Wahrscheinlichkeiten für die untersuchte Stichprobe dargestellt. o Beispielhafte Erläuterung (für X=1, Y=0): 23,2% der Stichprobe haben ein Treatment erhalten, aber keinen Behandlungserfolg. o Insgesamt erhielten 60% ein Treatment und 52,8% der Stichprobe hatte einen Behandlungserfolg. - Um bedingte Erfolgswahrscheinlichkeiten auszurechnen, verwendet man eine Formel, in der die Wahrscheinlichkeit des Ereignisses (Verbundwahrscheinlichkeit) durch die Wahrscheinlichkeit, überhaupt in der entsprechenden Treatment-Bedingung zu sein, geteilt wird. 31 o Hier für die Erfolgswahrscheinlichkeit in der Treatment-Gruppe (Y=1, X=1): o Hier für die Erfolgswahrscheinlichkeit in der Kontrollgruppe (Y=1, X=0): - Der unbedingte Prima Facie Effekt besteht in der Differenz der Erfolgswahrscheinlichkeiten zwischen Treatment- und Kontrollgruppe. In Steyer-Notation berechnet er sich wie folgt: o PFE10 = P(Y=1|X=1) - P(Y=1|X=0) = .42 - .60 = - .18 § Der Index 10 bedeutet, dass das 1. Treatment gegen das 0. Treatment verglichen wird. o Resultat dieser Berechnung ist, dass auf den ersten Blick das Treatment schadet (-.18). Als Verdeutlichung das nebenstehende Balkendiagramm. - Normalerweise ist der Prima Facie Effekt über Erwartungswerte definiert und nicht über Wahrscheinlichkeiten: PFE10 = E(Y|X=1) E(Y|X=0)] o In unserem Beispiel aber sind Erwartungswert und Wahrscheinlichkeit identisch. § Grund hierfür ist: Immer wenn X dichotom ist und Y lediglich die Werte 0 und 1 annimmt, sind Erwartungswert und Wahrscheinlichkeit gleich. Bedingter Prima Facie Effekt (conditional prima facie effect) - Im Folgenden wird das Beispiel nach Geschlechtern getrennt betrachtet. In Table 1.2 sind die Wahrscheinlichkeiten (immer in Bezug auf die gesamte Stichprobe) dargestellt. o Bei dieser Aufteilung nach Geschlechtern fällt auf, dass Männer eine höhere Erfolgswahrscheinlichkeit (Y=1) haben als Frauen (.352 zu .176) und dass Männer deutlich seltener in der Treatment-Gruppe (X=1) sind als Frauen (.020 zu .380). - Wenn man die Prima Facie Effekte nach Geschlechtern getrennt betrachtet, spricht man von conditional prima facie effects (bedingte PFE). - Basierend auf den Daten aus Table 1.2 ergibt sich für Männer o Die bedingte Erfolgswahrscheinlichkeit für Männer in der TreatmentGruppe o Die bedingte Erfolgswahrscheinlichkeit für Männer in der Kontrollgruppe o Die Erfolgswahrscheinlichkeit der Männer ist größer, wenn sie ein Treatment hatten, als wenn sie kein Treatment hatten. Dieser bedingte (conditional) Prima Facie Effekt berechnet sich wie folgt: PFE10 , Z=0 = = .80 - .70 = .10 § Das Treatment ist für Männer also nützlich : es erhöht die Erfolgswahrscheinlichkeit. - Basierend auf den Daten aus Table 1.2 ergibt sich für Frauen o Die bedingte Erfolgswahrscheinlichkeit für Frauen in der Treatment-Gruppe P(Y=1 | X=1, Z=1) = .152 / .380 = .40 o Die bedingte Erfolgswahrscheinlichkeit für Frauen in der Kontrollgruppe P(Y=1 | X=0, Z=1) = .024 / .120 = .20 o Die Erfolgswahrscheinlichkeit der Frauen ist größer, wenn sie ein Treatment hatten als wenn sie kein Treatment hatten. Dieser bedingte (conditional) Prima Facie Effekt berechnet sich wie folgt: PFE10 , Z=0 = P(Y=1 | X=1, Z=1) - P(Y=1 | X=0, Z=1) = .40 - .20 = .20 § Das Treatment ist für Frauen also ebenfalls nützlich : es erhöht die Erfolgswahrscheinlichkeit. 32 - Ganz ähnlich wie anfangs im Beispiel mit der Simpson-Waage wirkt hier das Treatment jeweils für Männer und für Frauen, aber in der Gesamtstichprobe gibt es scheinbar einen negativen Effekt. Dies ist in Figure 1.2 (s.o.) abgebildet. Über Z gemittelter Prima Facie Effekt (Average prima facie effect with respect to Z) - Der über Z gemittelte Prima Facie Effekte ist wie der Name schon sagt ein Mittelwert der Prima Facie Effekte über alle Z-Bedingungen. Er berechnet sich wie folgt: o Summiert wird das Produkt aus PFE in einer bestimmten Bedingung Z=z mit der Wahrscheinlichkeit für diese Z-Bedingung. § Im Beispiel bedeutet diese Summe: Der Prima Facie Effekt der Männer mal der Wahrscheinlichkeit in der Stichprobe ein Mann zu sein plus der Prima Facie Effekt der Frauen mal der Wahrscheinlichkeit eine Frau zu sein. - Berechnung im Beispiel: o Die .15 besagt, dass die Therapie hilft. Dieser über Z gemittelte Prima Facie Effekt (PFE) deutet also auf eine ganz andere Wirkung als der eingangs berechnete unbedingte Prima Facie Effekt hin, der -.18 betrug. - Der gemittelte PFE berücksichtigt, dass Männer und Frauen sich unterschiedlich auf die Treatment-Bedingungen verteilt haben. Er gibt an, wie die Therapie gewirkt hätte, wenn sich die beiden Geschlechter gleichmäßig auf die Treatment-Gruppen verteilt hätten und berücksichtigt zudem die zwischen den Geschlechtern grundsätzlich verschiedene Erfolgswahrscheinlichkeit. Zusammenfassende Abbildung - Alle besprochenen Effekte sind in Figure 1.3 verdeutlicht. o Die unterschiedlichen schwarzen Linien stehen für die Männer (Z=0) bzw. Frauen (Z=1). o Die rote Linie ist die Erfolgswahrscheinlichkeit der Gesamtpopulation für Kontrollgruppe (X=0, links) und Treatment-Gruppe (X=1, rechts). o Die gepunkteten Kreise stehen für die Stichprobengröße jeder Subgruppe: Ein großer Kreis hat viel Einfluss auf die Gesamtpopulation, ein kleiner Kreis wenig. - In der Abbildung wird am Anstieg beider schwarzen Linien deutlich, dass die bedingten PFE jeweils positiv sind. - An der roten Linie sieht man, dass der unbedingte PFE negativ ist. Grund hierfür ist die unterschiedliche Größe der Subgruppen (siehe gepunktete Kreise). - Ein über Z gemittelter PFE wäre in etwa der Mittelwert der beiden schwarzen Linien und würde ebenfalls von X=0 nach X=1 ansteigen. Zusammenfassung von Prima Facie Effekten beim Simpson-Paradox - Der unbedingte PFE entspricht nicht per se dem average causal treatment effect , sondern kann verfälscht ( biased ) sein und zu falschen Schlussfolgerungen führen. - Auch die bedingten (hier: geschlechtsspezifischen) PFE müssen nicht kausale Effekte repräsentieren, sondern können ebenfalls verfälscht biased ) sein. Rolle von Kovariaten - Wenn wir weitere Kovariaten, z.B. Bildungsstand oder Alter, berücksichtigen, werden gegebenenfalls ganz andere PFE geschätzt. o Eine große Frage in der Kausalitätsforschung ist also: Welche und wie viele Kovariaten muss man berücksichtigen? 33 - Variablen wie Geschlecht, Bildungsstand und Vorwerte sind Kovariaten (potential confounders). Sie führen zu verfälschten PFE, wenn sie sowohl mit dem Treatment als auch mit dem Outcome korreliert sind! o Beispiel: Die Werte eines Vortests (Kovariate) hängen mit den Outcome-Werten zusammen. Wenn aber die Personen zufällig den Treatment-Bedingungen zugewiesen wurden, hängt der Vorwert nicht mit dem Treatment zusammen. Dann gibt es keine verfälschten PFE. § Im eingangs thematisierten Beispiel zum Englisch-Training hingen die Vortestwerte aber mit Outcome (Wert nach Training) und dem Treatment (Zuweisung zu Gruppen) zusammen, weshalb es zu verfälschten PFE kam. o Als Kovariaten sollte man also immer solche Variablen berücksichtigen, die mit Treatment und Outcome zusammenhängen. - Wenn Geschlecht der einzige potential confounder wäre, der mit Treatment und Outcome zusammenhängt, wäre der über Geschlecht (im Beispiel: Z) gemittelte PFE ( average PFE ) ein guter Schätzer für den durchschnittlichen kausalen Effekt. o Der average PFE hilft uns, der Kausalität näher zu kommen. Nonorthogonale Varianzanalyse Grundidee und Begrifflichkeiten - Nonorthogonalität bedeutet, dass X (Treatment-Variable) und Z (Kovariate) nicht unabhängig voneinander sind. - Im Folgenden wird ein Beispiel mit fiktiven Daten behandelt (entspricht Kapitel 1.2 des Buches), bei dem es um das Wohlbefinden (Y) von Patienten geht. Siehe hierzu Table 1.3 o Die Outcome-Variable (Y) ist metrisch, d.h. es gibt kontinuierliche Werte. o Es gibt 3 Treatmentgruppen: Kontrollgruppe (X=0), Psychoanalyse (X=1) und Verhaltenstherapie (X=2) o Die Kovariate Bedürftigkeit hat drei Ausprägungen: niedrig (Z=0), mittel (Z=1) und hoch (Z=2) - Im Beispiel sind Treatmentgruppe (X) und Bedürftigkeit (Z) abhängig voneinander: Je nach Bedürftigkeit ordnen sich die Patienten in unterschiedliche Treatmentgruppen ein, was Probleme bei den kausalen Schlussfolgerungen erzeugt. Unbedingte Prima Facie Effekte - Für die unbedingten PFE werden Treatment 1 und 2 jeweils mit Treatment 0 (Kontrollgruppe) verglichen. Natürlich wäre es auch möglich, andere Vergleichskombinationen zu wählen. Es ergibt sich o PFE 10 = E(Y|X=1) E(Y|X=0) = 100.00 111.25 = -11.25 § Die Psychoanalyse (Treatment X=1) schadet scheinbar. o PFE 20 = E(Y|X=2) E(Y|X=0) = 114.25 111.25 = 3 § Die Verhaltenstherapie (X=2) nutzt scheinbar im Vergleich zur Kontrollgruppe. - Kausale Schlüsse sollten hieraus aber noch nicht gezogen werden, weil möglicherweise weitere Variablen mit Treatment und Outcome kovariieren. Bedingte Prima Facie Effekte - Die nebenstehende Table 1.4 schlüsselt die Stichprobe nach Bedürftigkeit auf. o In den Klammern stehen die Wahrscheinlichkeiten, außen jeweils die Randwahrscheinlichkeiten über mehrere Bedingungen hinweg. - Es fällt auf, dass die Hochbedürftigen (Z=2) eher in der Verhaltenstherapie (X=2) zu finden sind und die Niedrigbedürftigen (Z=0) vor allem in der Kontrollgruppe (X=0). - Die in den folgenden drei Abschnitten verbalisierten PFE dürfen nicht kausal interpretiert werden. Man ist zwar der Kausalität mit der Betrachtung der bedingten PFE näher gekommen, aber es könnten immer noch viele andere Kovariaten involviert sein, die wir hier gar nicht einbezogen haben. Bedingte PFE für Z=0 - Die beiden folgenden PFE beziehen sich auf Patienten mit geringer Bedürftigkeit (Z=0) - Für niedrig Bedürftige hat die Psychoanalyse (X=1) negative Effekte im Vergleich zur Kontrollgruppe (X=0) - Für niedrig Bedürftige hat die Verhaltenstherapie (X=1) stark negative Effekte im Vergleich zur Kontrollgruppe (X=0) 34 Bedingte PFE für Z=1 - Für mittel Bedürftige hat die Psychoanalyse (X=1) negative Effekte im Vergleich zur Kontrollgruppe (X=0) - Für mittel Bedürftige hat die Verhaltenstherapie (X=1) negative Effekte im Vergleich zur Kontrollgruppe (X=0) Bedingte PFE für Z=2 - Für hoch Bedürftige hat die Psychoanalyse (X=1) positive Effekte im Vergleich zur Kontrollgruppe (X=0) - Für hoch Bedürftige hat die Verhaltenstherapie (X=1) positive Effekte im Vergleich zur Kontrollgruppe (X=0) Über Z gemittelter Prima Facie Effekt - Indem man die PFE über die Variable Z (Bedürftigkeit) mittelt, erhält man den Average PFE für jede der Treatment-Bedingungen. - Für die Treatmentbedingung X=1 (Psychoanalyse) ergibt sich folgende Rechnung o Die Prima Facie Effekte für jede Ausprägung von Z (siehe oben) werden mit der Wahrscheinlichkeit für die jeweilige Merkmalskombination (X=1, Z=z) multipliziert und aufsummiert. o Ergebnis ist, dass es im Durchschnitt keinen Effekt der Psychoanalyse (X=1) auf das Wohlbefinden gibt, da der gemittelte PFE 0 beträgt. Wie wir im Abschnitt zu bedingten PFE gesehen haben, gibt es aber bei Betrachtung einzelner Bedürftigkeitsgruppen positive bzw. negative Effekte. - Für die Treatmentbedingung X=2 (Verhaltenstherapie) ergibt sich folgende Rechnung o Ergebnis ist, dass es im Durchschnitt keinen Effekt der Verhaltenstherapie (X=1) auf das Wohlbefinden gibt, da der gemittelte PFE 0 beträgt. Wie wir im Abschnitt zu bedingten PFE gesehen haben, gibt es aber bei Betrachtung einzelner Bedürftigkeitsgruppen positive bzw. negative Effekte. Zusammenfassung von Prima Facie Effekten bei nonorthogonaler Varianzanalyse - Die nebenstehende Abbildung (figure 1.4) zeigt, dass die Treatment-Bedingungen nur bei den Hochbedürftigen (Z=2, gepunktete Linie) mit deutlich besserem Wohlbefinden einhergehen. - Die rote Linie ist der unbedingte PFE. Er besagt, dass im Mittel über alle Bedürftigkeiten die Treatments kaum einen Effekt haben. - Grund für diese unterschiedlichen Effekte ist, dass die Patienten in Abhängigkeit von ihrer Bedürftigkeit unterschiedlich häufig in den Treatment-Gruppen vertreten sind. Übersicht Prima Facie Effekte o Als Take-Home-Message sind die drei folgenden Punkte gedacht - PFE entsprechen nicht per se kausalen Effekten, sondern können verfälscht ( biased ) sein und zu falschen Schlussfolgerungen führen. - Durch Bedingen auf Kovariaten kann eine Verfälschung durch diese Kovariaten aufgehoben werden, wodurch man sich den kausalen Effekten annähert. o Erst wenn man alle Kovariaten berücksichtigen würde [unmöglich!], könnte man wirklich kausale Schlüsse ziehen. - Es gibt verschiedene PFE, die die Effekte beschreiben, aber nicht per se kausale Effekte des Treatments darstellen. Verschiedene Arten von Prima Facie Effekten - In der nebenstehenden Auflistung sind die drei in der Vorlesung (und damit im Buchkapitel) 35 behandelten Arten von PFE in allgemeiner Form aufgeführt: o Unbedingte PFE o Bedingte PFE o Über Z gemittelte PFE C 7. Sitzung vom 26.05.2009: Kausalitätsraum, True-Outcome-Variablen und TrueEffect-Variablen Abstract der Sitzung - In dieser Sitzung wird zunächst der Grundgedanke der Stratifizierung zum Einbezug möglicher Störvariablen dargestellt. Anschließend wird eine Möglichkeit dargestellt, den zeitlichen Ablauf in Mengennotation zu fassen ( Filtration ). Der Kausalitätsraum, der sich aus den ersten beiden Schritten ergibt, wird definiert. Anschließend werden die vorherigen drei Schritte am Beispiel des Simpson-Paradoxon erläutert, wobei die um den Effekt von Störvariablen bereinigten True-Outcome-Variablen eingeführt werden. Thematische Einordnung der Sitzung Rückblick auf die letzte VL - In der vergangenen Sitzung wurde das Simpson-Paradoxon behandelt sowie ein weiteres Beispiel für die non-orthogonale Varianzanalyse. - Das Muster dabei war: Wenn man eine weitere Bedingungsvariable zusätzlich zu UV und AV betrachtet (z.B. das Geschlecht), dann findet man je Gruppe einen anderen Zusammenhang für verschiedene Werte dieser Variable. o Im Therapie-Beispiel für die non-orthogonale Varianzanalyse fanden wir z.B. unterschiedliche Effekte einer Behandlung für unterschiedliche Grade an Therapiebedürftigkeit: Der durchschnittliche Effekt wies praktisch überhaupt keine Effekte aus; eine genauere Aufschlüsselung ergab jedoch positive Effekte für hoch Bedürftige, negative für wenig Bedürftige. Fazit zur letzten Sitzung - Diese beiden Beispiele legten nahe, dass man sich nicht auf die Analyse von Mittelwerten verlassen kann, wenn es um die Bewertung der Wirkung eines Treatments geht. o Die Beispiele zeigen auch: Eine einfache Hinzunahme des Geschlechts als Z-Variable reicht nicht aus, um kausale Schlüsse ziehen zu können; weitere Kovariaten könnten Effekte haben man kennt sie aber nie alle. - Ein weiteres Problem: Veränderungen treten auch ohne Treatment auf; Reifung, Lernprozesse oder kritische Ereignisse können eine Rolle spielen. Alle psychologischen Phänomene zeichnen sich durch Multideterminiertheit aus. Agenda für diese Sitzung - In der heutigen Sitzung gilt es im Bezug auf die Kausalität zwei Überlegungen zu machen: o Theoretisch: Was ist überhaupt Wirkung , was sind kausale Effekte ? o Praktisch: Implikationen für praktische Datenanalysen [wird in dieser Sitzung nicht mehr thematisiert] Möglichkeiten zur Abschätzung kausaler Effekte Grundgedanke: Atomare Stratifizierung - Gehen wir von der hypothetischen Annahme aus, es gäbe im Beispiel des Therapieerfolgs nur die drei Variablen Behandlung (X), Therapieerfolg (Y) und Geschlecht (Z). Als ersten Ansatz zur Analyse kausaler Effekte betrachtet man die Störvariable Geschlecht . Innerhalb der durch diese Variable gebildeten Subpopulationen der Männer und Frauen ist die Abhängigkeit zwischen dann Y und X nicht mehr verfälscht (weil es ja, wie wir annehmen, keine weiteren Einflussgrößen neben dem Geschlecht mehr gibt). o Grundgedanke ist also: Kleinstmögliche Einheiten (Subpopulationen) ansehen, um kausale Effekte zu isolieren. § Dies lässt sich realiter nicht so umsetzen wie in unserem hypothetischen Beispiel: Erstens kennt man nicht alle möglichen Variablen, zweitens kann man nicht alle erheben und drittens sind Stichproben oft zu klein, um viele Variablen gleichzeitig auf ihren Einfluss zu testen (Zellenbesetzung zu gering). · Statt der Einzeleffekte je Gruppe muss man daher auch wie in der letzten Stunde durchschnittliche (z.B. über Z, d.h. Subpopulationen, gemittelte) Effekte in Betracht ziehen. 36 - Dieses Vorgehen, von Subpopulationen auszugehen, nennt man Stratifizierung. Auf der feinsten Ebene von Subpopulationen oder sogar Individuen könnte man von atomarer Stratifizierung (kleinste Auflösungseinheit) sprechen. Von dieser Ebene ausgehend kann (und bisweilen: muss) man dann, wie gesagt, wieder auf die aggregierte Ebene gehen und durchschnittliche Treatmenteffekte betrachten. o Aus dem Buch S. 76: Conditioning on the atomic strata and then taking (conditional or unconditional) expected values over the distribution of the strata is what we call the principle of atomic strati cation. Caveat: Zusammenhänge von Y und X mit Z - Bei diesem Vorgehen der Stratifizierung müssten wir möglichst solche Störvariablen (Subpopulationen) ansehen, die nicht mit dem Treatment zusammenhängen. o Beispiele: Geschlecht, SES oder Wohnort vor der Behandlung sind nicht von der Treatment-Variable beeinflusst. - Gleichzeitig gibt es auch vermittelnde Variablen (Mediatoren), die von dem Treatment abhängen und das Outcome beeinflussen. Wenn kausale Effekte so definiert sind, dass alle Störvariablen kontrolliert sind, so sind solche Mediatorvariablen als Störvariablen ausgeschlossen, weil man mit ihnen den kausalen Effekt des Treatments nicht mehr modellieren kann. o Beispiel: Wird der Erfolg einer Intervention bei Alkoholikern nach einem Jahr gemessen, so kann eine eingetretene Besserung statt auf das Treatment auch auf die Tatsache zurückzuführen sein, dass der Klient in der Therapieeinrichtung eine Frau kennen gelernt hat und nun ihr zuliebe nicht mehr trinkt. Der Effekt der eigentlichen Behandlung könnte dann nicht mehr unmittelbar identifiziert werden. - Bei der Identifikation kausaler Effekte bedarf es also einer Strukturierung der betrachteten Phänomene als Prozess: Man muss die zeitlichen Entwicklungen vom Treatment zum Outcome beachten, v.a. im Hinblick auf Mediatoren. Filtration [Im Buch: ab Seite 47] Zugrunde liegender Wahrscheinlichkeitsraum - Man betrachtet einen Wahrscheinlichkeitsraum sowie die Zufallsvariablen von Treatment und Outcome plus eventuell eine Störvariable: o , A, P), X, Y, Z. § Das A meint dabei eine -Algebra. o Dies ist das Zufallsexperiment: Ziehe eine Person (aus einer Subpopulation), betrachte ob sie behandelt ist, betrachte ob die Therapie Erfolg hatte. - Diese Wahrscheinlichkeiten übersetzt man dann in die Regression E(Y|X) bzw. E(Y|X,Z). o Die Werte der Regression ergeben z.B. die Befindlichkeitsmittelwerte der therapierten vs. nicht therapierten Frauen vs. Männer. Durchführung der Filtration - Nun kommt die oben angekündigte Prozesskomponente hinzu. Bisher betrachten wir einfach nur Zufallsvariablen, die gleichzeitig gezogen werden; der Formalismus der Wahrscheinlichkeitstheorie kennt aber keine (zeitliche) Vorgeordnetheit. Dass X zeitlich vor Y lag wissen wir zwar rein inhaltlich, es schlägt sich aber nicht in der mathematischen Notation nieder. Um Prozesse zu betrachten, ist die klassische Notationsstruktur also nicht ausreichend. o Man könnte nun an die Zufallsvariablen einfach Zeitindizes hängen, die eine Reihenfolge angeben. Dies schafft aber das neue Problem, dass es weitere Variablen gibt, die zunächst nicht geordnet sind. Beispielsweise können Funktionen von X und Y nicht mehr in das Indexschema eingeordnet werden. - Statt auf der Variablenebene geht man daher zur Einführung der zeitlichen Reihenfolge auf die Ereignisebene. Jedes der Zufallsereignisse erzeugt nämlich Ereignismengen: o Vor dem Treatment gibt es die Ereignismenge C1 =U-1 (AU) mit U: à U § Das U bildet die Person ab (Beobachtungseinheitenvariable). o Nun bildet man eine zweite Ereignismenge, die alle möglichen Ereignisse der ersten Ereignisse enthält plus alle Ereignisse, die nun mit dem Treatment hinzukommen: C2 = A(C1, X) o Schließlich betrachtet man eine dritte -Algebra, die von C 2 und Y gebildet wird und somit zusätzlich die möglichen Ereignisse nach dem Treatment enthält: C3 = A(C2, Y) - So hat man die Möglichkeit, durch drei -Algebren die zeitliche Geordnetheit des Prozesses darzustellen. Die -Algebra mit dem kleinen Index ist immer in derjenigen mit nächst höherem Index enthalten. Dieses geschichtete Vorgehen nennt man Filtration [Figure 3.1]. o Alle Eigenschaften, die Personen mitbringen, bevor sie ins Treatment kommen, sind in C1 enthalten. o Durch die Randomisierung in einem Experiment werden alle (Stör- )Variablen gewissermaßen unabhängig vom Treatment gemacht C1 und X sind dann stochastisch unabhängig. Dieser Aspekt wird später noch vertieft behandelt. Fazit zur Filtration - Wir haben nun eine neue Art der mathematischen Formalisierung eingeführt und sind durch Filtration zu einer Familie (Ct) tÎT , Cx von von sub- -Algebren einer -Algebra A gekommen, die man als Filtra37 tion bezeichnet, wenn s len. t mit s, t Î T impliziert, dass Cs Ì Ct . Mithilfe dieser Mengen sind wir in der Lage, zeitliche Verläufe darzustel- - Mit dieser Notation können wir schließlich kausale Effekte definieren. Wie dies geht, wird im Folgenden besprochen. Fragen der Studierenden - Frage: Was ist das Konzept der -Algebra? o Antwort: Eine -Algebra A ist eine Menge von Teilmengen einer Ausgangsmenge W. Diese Menge hat einige Eigenschaften, die im Buch Wahrscheinlichkeit und Regression sowie im Appendix zum bereits ausgehändigten Buchkapitel aus Probability and Causality ausführlich dargestellt sind. § Die für uns momentan wichtigste dieser Eigenschaften ist: Die -Algebra ist geschlossen bezüglich der üblichen Mengenoperationen . Dies bedeutet: Immer wenn man zwei Elemente aus ihr entnimmt, so sind deren Vereinigungen oder Schnittmengen wieder Elemente derselben -Algebra. - Frage: Wie detailliert müssen wir dieses Wissen präsent haben? o Antwort: Die mathematischen Details sind für uns nicht relevant. Es geht nur darum zu verstehen, dass wir bei der Filtration Ereignisse und die Zufallsvariablen, welche diese Ereignisse repräsentieren, auf eine bestimmte Art hierarchisch ordnen können, um zeitliche Prozesse fassen zu können. [Zeitmarke: 1:01:43] Kausalitätsraum - Mit den jetzt eingeführten Bestandteilen haben wir einen Kausalitätsraum aufgespannt. Er besteht aus den Elementen , A, P), X, Y und (Ct) tÎT, Cx . Jedes Ct und C x ist dabei je eine Teilmenge der -Algebra A und selbst wieder eine -Algebra. - Mit diesem Kausalitätsraum kann man nun kausale Effekte definieren. Dies wäre aber erst der nächste Schritt. o In der Definition des Kausalitätsraums selbst ist dazu nur die Information enthalten, dass das X dem Y immer vorausgeht. - Anmerkung zur Begleitlektüre: o Die Ausführungen bis hierher sind in Kapitel 3 des Buches dargestellt. o Ab jetzt folgt Kapitel 4. o Mehr zum Kausalitätsraum siehe Buch S. 59f. True-Outcome-Variablen - In Table 4.3 ist das Simpson-Paradaxon aufgegriffen. Wir betrachten eine Population, die nur aus den beiden Personen Joe und Ann besteht, sodass die Personenvariable mit der Geschlechtervariable in eins fällt. o In diesem Zufallsexperiment können wir für die beiden Personen je 8 verschiedene Ereignisse haben, die alle Teile der -Algebra sind. Man hat also folgende Variablen: § Personen-Variable U (Joe, Anne) § Treatment-Variable (0=keine Behandlung, 1= Behandlung) § Outcome-Variable (0=für Erfolg. 1=kein Erfolg) o Die conditional expected values geben die bedingten Erwartungswerte und in diesem Fall auch die Wahrscheinlichkeiten für das jeweilige Ereignis an. § Begründung [siehe auch letzte Sitzung]: Die Regression E(Y|X,U) kann auch als Wahrscheinlichkeit P(Y=1|X,U) geschrieben werden, wenn wie in diesem Spezialfall Y nur die Werte 0 und 1 annehmen kann. - Bei einer einfachen kausalen Interpretation würde man auf den ersten Blick zu dem Schluss kommen, dass die Therapie schadet. Nun folgt aber die atomare Stratifizierung: Wir definieren uns dazu zwei True-Outcome-Variablen, nämlich einmal unter Behandlung und einmal unter Nicht-Behandlung. Die Idee dabei ist eine Bereinigung der Outcome-Variable um die Verfälschung, die durch die Personenvariable geschieht. o Man sieht sich dazu den Erwartungswert auf der atomaren , d.h. feinsten Ebene der Y-Variablen (hier: der Personenebene) unter der Nicht-Behandlungsbedingung an: t0 = E(Y|U, X=0). Der Wert beträgt .20 für Ann, .70 für Joe. o Unter Behandlung (t1) beträgt der Wert t1 .40 für Ann, .80 für Joe. - Diese True-Outcome-Variablen sind dann, etwas verallgemeinert, wie folgt definiert: o t0 (w) = E [Y |X=0, U=u(w)] o t1 (w) = E [Y |X=1, U=u(w)] § w besteht aus einem Tripel (U, X, Y), also gibt es in unserem Beispiel 8 verschiedene solcher Tripel. § t0 gibt das Outcome für X=0 (keine Behandlung) an, t1 für X=1 (Behandlung). - Diese beiden neuen Variablen sind bereinigt von Verfälschungen (unkonfundiert) und geben die wahren Effekte wieder. 38 o Man könnte nun für jede Person eine einfache Differenz zwischen den Effekten unter Behandlung und Nicht-Behandlung bilden und hätte damit den unverfälschten Therapieeffekt. o Diese Werte könnte man summieren und durch 2 Teilen, womit man den durchschnittlichen unverfälschten Therapieeffekt erhielte Zusammenfassung zum Beispiel des Simpson-Paradoxon - Ausgehend von der verfälschten ( hoffnungslos mit Effekten von Störvariablen konfundierten ) Y-Variable haben wir nun neue Variablen definiert, die um alle Konfundierungen bereinigt sind. Dies ist die erste Grundlage, um von kausalen Effekten sprechen zu können. M 8. Sitzung vom 02.06.2009: Durchschnittliche und bedingte kausale Effekte Abstract der Sitzung - Heute werden wir uns verschiedene kausale Effekte ansehen - Gegenstand der nächsten Stunde sein, wie man kausale Effekte interpretieren und analysieren kann. INHALTSVERZEICHNIS 8. Sitzung vom 02.06.2009: Durchschnittliche und bedingte kausale Effekte................................................................................................39 Abstract der Sitzung.................................................................................................................................................................................39 Rückblick auf die letzte VL ..................................................................................................................................................................39 Exkurs zur Variable d und Unabhängigkeit von X ................................................................................................................................39 Kausale Effekte: Begriffe .........................................................................................................................................................................40 Durchschnittlicher kausaler Effekt ........................................................................................................................................................40 Bedingter kausaler Effekt hinsichtlich einer Kovariate Z........................................................................................................................40 Bedingter kausaler Effekt hinsichtlich einer Treatment-Bedingung X.....................................................................................................40 Bedingter kausaler Effekt hinsichtlich der Werte X und Z......................................................................................................................41 Bedingte Effektfunktionen....................................................................................................................................................................41 Individueller Kausaleffekt ....................................................................................................................................................................41 Kausale Effekte: Beispiel aus Kapitel 4.1.3...............................................................................................................................................41 Beispiel................................................................................................................................................................................................41 Rückblick auf die letzte VL - Letzte Sitzung haben wir uns mit der Definition von True-Outcome-Variablen und True-Effect-Variablen, ausgehend vom SimpsonParadox, beschäftigt. o Abhängigkeiten, die man mit Regressionen beschreiben kann, d.h. Mittelwertsvergleiche, waren verfälscht. Daraufhin definierten wir die Störvariablen und berechneten die True-Outcome-Variablen, indem wir alle Störvariablen konstant hielten. Exkurs zur Variable d und Unabhängigkeit von X - Im Laufe der heutigen Sitzung wird anhand einer Nachfrage einmal kurz erläutert, dass sich die Variable d als Veränderung zwischen zwei True-Outcome-Variablen t definiert ist (siehe nebenstehenden Screenshot). o Die Werte der True-Outcome-Variablen t sind Funktionen der Person U. Sie hängen somit lediglich von der Person U ab und sind nicht abhängig von der Treatment-Bedingung X. o Die Effekte von X sind im Vergleich von t0 und t1 enthalten. - Zusätzlich zum Screenshot gilt: d10 = f(U), da beide ti , deren Differenz d10 ist, eine Funktion von U sind. - Jedes d ist der Treatment-Effekt einer Person U in einem zukünftigen Experiment. Dieser ist für jede Person unterschiedlich, hängt nicht von X ab, sondern ist ausschließlich eine Funktion von U. - d hängt nicht von X ab, weil in der Prä-facto-Perspektive die Zuweisung einer Person U zu einer Bedingung (z.B. X=0 oder X=1) bereits erfolgt ist. o Dies ist laut Prof. Steyer vollkommen kontraintuitiv, weil umgangssprachlich der Wert von d irgendwie von X abhängt . Aber stochastisch und regressiv ist d von X unabhängig. o Prof. Steyer habe Jahre gebraucht, diese Denkweise zu begreifen, als er das erste Mal damit konfrontiert worden sei: Das hat mir keiner so schön erklärt, wie ich Ihnen das hier versuche zu erklären. Ich war da auf mich alleine gestellt. 39 Kausale Effekte: Begriffe Durchschnittlicher kausaler Effekt o Die nächsten Abschnitte stammen alle aus Kapitel 5 des Buches, d.h. S. 101ff. - Der durchschnittliche kausale Effekt (Average Causal Effect, ACE) ist wie folgt definiert: o ACExx E(dxx ) [Schreibweise als Screenshot] § Dieser Wert wird gemittelt über die Verteilung aller potentiellen Störvariablen o dxx sind dabei die True-Effect-Variablen für einen Wert (x) und einen zweiten Wert ( ) der Treatment-Variablen. dxx sind die Mittelwertsunterschiede auf der feinsten Ebene , d.h. die Differenz zwischen zwei Werten einer Variable. Wenn man von diesen Unterschieden den Erwartungswert betrachtet, hat man den durchschnittlichen kausalen Effekt, weil er über alle Störvariablen hinweg geht. § Der Trick hierbei ist, dass man nicht das Y als eigentliche Outcome-Variable betrachtet, sondern immer die bereinigte Effektvariable d. - Die Betrachtung dieses ACE ist nötig, weil alleine die Betrachtung von Mittelwertsunterschieden keine kausalen Schlüsse zulässt, wie wir beispielsweise anhand des Simpson-Paradox gesehen haben. - Die Effekte, über welche man den Durchschnitt bildet, können für verschiedene Personen oder Subpopulationen unterschiedlich sein: Man setzt nicht voraus, dass jede Person die gleichen Effekte durch ein Treatment x oder o [Ist das nicht trivial, weil es gerade der Idee eines Durchschnitts entspricht?] aufweist. Bedingter kausaler Effekt hinsichtlich einer Kovariate Z o Englisch: Conditional causal effect given a value of a covariate kurz: Conditional Causal Effect (CCE) - CCExx ; Z=z E(dxx | Z=z) [Schreibweise als Screenshot] - Hierbei wird der bedingte Erwartungswert der True-Effect-Variablen gegeben der Ausprägung einer Kovariate Z betrachtet. o Die Kovariate kann beliebig sein. Inhaltlich sinnvoll ist oftmals die Betrachtung von Vortest-Werten. Bedingter kausaler Effekt hinsichtlich einer Treatment-Bedingung X o Englisch: Conditional causal effect given a value of X - CCExx ; X=x* E(dxx | X=x*) [Schreibweise als Screenshot] - Hierbei wird auf eine Treatment-Bedingung hin bedingt . - Verglichen wird der Effekt eines Treatments x (z.B. x0 Kontrollbedingung ) mit dem eines Treatments (z.B. x1 Behandlung ) unter der Bedingung eines Treatments x* (z.B. x0 Kontrollbedingung ). Erläuterung zu dieser Bedingung - Das intuitive Denken geht davon aus, dass man Unterschiede zwischen einem Zustand vorher und einem Zustand nachher als Veränderung ansieht. Diese Vorher-Nachher-Vergleiche sind aber nicht notwendig, wie das folgende Beispiel zeigen soll. o Beispiel: Wir betrachten ein randomisiertes Experiment, z.B. die Auswirkung von Vitaminpräparaten auf die Körpergröße neugeborener Kinder und damit eine Variable, die man vor dem Treatment gar nicht betrachten kann, weil die Kinder zu Behandlungsbeginn noch nicht geboren sind. Das Vitaminpräparat kann einen Effekt auf die Körpergröße des Kindes haben, aber es gibt keine Vorher-NachherVeränderung . - Man benötigt im randomisierten Experiment also keine Vorher-Nachher-Vergleiche, um durchschnittliche kausale Effekte interpretieren zu können. Stattdessen ist der Unterschied zwischen Experimental- und Kontrollgruppe ausreichend. o In der Notation dieser Vorlesung wird immer eine Prä-facto-Perspektive eingenommen, d.h. das Treatment wurde noch gar nicht durchgeführt. In dieser Prä-facto-Perspektive sind die Personen, die in Zukunft nicht behandelt werden, vor Beginn des Experiments definitionsgemäß identisch mit der Kontrollgruppe. o Ob man eine Person behandelt oder nicht behandelt, hängt von nichts ab; auch nicht von den d-Variablen. Diese sind Effekte, welche sich erst nach Durchführung des Experiments ergeben. - Weil alle Personen vor Beginn des Experiments gleich sind, darf sich der durchschnittliche Effekt (gemittelt über alle Personen, d.h. inklusive der Nicht-Behandelten) nach Durchführung des Experiments zwischen Kontroll- und Experimentalgruppe nicht unterscheiden. o Kurz: Die True-Effect-Variable d und die Treatment-Variable X sind voneinander unabhängig. [M: nicht wirklich verstanden] Beispiele für bedingter kausale Effekte hinsichtlich einer Treatment-Bedingung X - Wenn Schulen miteinander verglichen werden, stellt sich die Frage, welche Leistungen miteinander verglichen werden. o Ein einfacher Mittelwertsvergleich zwischen Testleistungen von Schulen ist nicht angebracht, weil er nicht die soziale Zusammensetzung der Schüler berücksichtigt. - Eine psychosomatische Klinik hat eine bestimmte Politik, welche Patienten aufgenommen werden. Diese Vorgehensweise ist nicht randomisiert, sondern folgt bestimmten Kriterien. Die Kliniken evaluieren ihre Behandlungsergebnisse. Aber wie wird Behandlungserfolg gemessen? 40 o Vergleicht man einfach Mittelwerte von Behandelten und Nicht-Behandelten, könnte dabei übersehen werden, dass eine Klinik die schwereren Fälle und eine andere nur die leichteren Fälle aufnimmt. - Im Klinik-Beispiel würde die Betrachtung des durchschnittlichen kausalen Effekts (ACE) bedeuten, dass man den Durchschnitt aller Patienten, die in irgendeine Klinik gehen können, berechnet. o Wenn man sich hingegen den bedingten kausalen Effekt hinsichtlich einer Treatment-Bedingung anschaut, mit x=0, x =1 und x*=0 , handelt es sich um den durchschnittlichen Effekt bei der eigenen Klientel : Die Klinik 0 schaut sich nur den durchschnittlichen Effekt bei den eigenen Patienten an. § Wenn man den gleichen Effekt mit x=1, x =0, x*=0 betrachtet, handelt es sich um den durchschnittlichen Effekt, den die Klinik 0 bei den Patienten der anderen Klinik 1 hätte. [M: Dieser letzte Punkt wurde so gesagt, aber ist da nicht was falsch dran?] Bedingter kausaler Effekt hinsichtlich der Werte X und Z o Englisch: Conditional causal effect given the values of X and Z - CCExx ; X=x* , Z=z E(dxx | X=x* , Z=z) [Schreibweise als Screenshot] - Dies ist eine Kombination der bedingten kausalen Effekte hinsichtlich der Werte X und der Werte Z (siehe die letzten beiden Abschnitte). - Wenn man randomisiert, kann man das X=x* weglassen, weil es eine unabhängige Zuweisung zu den Bedingungen gab. Bedingte Effektfunktionen o Englisch: Conditional causal effect functions - Die erste Funktion sagt aus, für welche Bedingung der Kovariaten Z man welchen durchschnittlichen Effekt hat. - Die zweite Funktion sagt aus, wie die durchschnittlichen Effekte für die eigene Klientel oder für die andere Klientel sind, d.h. je nachdem zu welcher Bedingung Personen zugewiesen wurden. - Diese Effektfunktionen sind ähnlich der g1-Funktionen, die wir im Grundstudium bei bedingten linearen Regressionen kennengelernt haben. Durchschnittlicher kausaler Effekt und bedingte Effektfunktionen - Wenn man über eine der drei bedingten Effektfunktionen den Erwartungswert bildet, erhält man wieder den durchschnittlichen kausalen Effekt (ACE): Individueller Kausaleffekt o Englisch: Individual causal effect - Der individuelle Kausaleffekt ist ein spezieller Kausaleffekt, wo die Kovariate Z durch U ersetzt wird. Die Personenvariable U ist nur eine spezielle Kovariate Z. o Auf englisch: Kausale Effekte: Beispiele - Mit den Begriffen sind nun die Zielgrößen eingeführt, mit denen man auch kausale Effekte bei verfälschten Mittelwerten interpretieren kann. Wie die genaue Berechnung erfolgt und wann sie überhaupt möglich ist, wird Thema für den Rest dieser Sitzung und die folgenden Sitzungen sein. Beispiel aus Kapitel 4.1.3 - Erläutert werden die heutigen Überlegungen anhand des bereits in der letzten Sitzung benutzten Beispiels, das nur 2 Personen (Joe, Ann) betrachtet: Im Buch Table 4.2 auf S. 71ff. - Die Treatment-Bedingung X sagt aus, ob eine Einzeltherapie durchgeführt wurde, ja (X=1) oder nein (X=0). o Die weitere Treatment-Bedingung Z wird als Kovariate betrachtet: Wurde eine Gruppentherapie durchgeführt, ja (Z=1) oder nein (Z=0)? - Man kann den durchschnittlichen Treatment-Effekt über beide Personen hinweg betrachten, was zudem der Durchschnitt über die Kovariate Z hinweg wäre. 41 Erläuterung der Tabelle - In der 5. Spalte von links (oberste Zahl: 68) stehen die Erwartungswerte, wenn keine Einzeltherapie vorgenommen wird (X=0), in der 6. Spalte von links (oberste Zahl: 82), wenn Einzeltherapie angewandt wurde (X=1). - Exemplarische Berechnung für die 1. Zeile: o Der Unterschied von 82 zu 68 ist der wahre Effekt unter Konstanthaltung der Person U (U=Joe) und der Kovariate Z (Z=0). Wahr ist dieser Effekt allerdings nur, wenn wir wissen, dass U und Z alle möglichen Störvariablen sind. o Dieser Effekt ist 14, wie auch in der 3. Spalte von rechts aufgeführt. - Die 3. Spalte enthält die d-Variablen für die verschiedenen Kombinationen von X und Z. Berechnung des durchschnittlichen kausalen Effekts - Der durchschnittliche kausale Effekt (ACE), d.h. E(d10) des Treatments X=1, berechnet sich als Summe der einzelnen Werte mal der Auftretenswahrscheinlichkeit dieser Merkmalskombination. - Die Auftretenswahrscheinlichkeit jeder der 4 Zeilen ist eine Kombination von U=u und Z=z. Im folgenden exemplarisch die Berechnung einer Einzelwahrscheinlichkeit: o P(U=Joe, Z=0) = P(Joe) * P(Z=0|U=Joe) = 0,5 * 0,5 = 0,25 o Die Wahrscheinlichkeiten für die anderen drei Kombinationen sind ebenfalls 0,25, weil hier die Zuweisung zu einer Bedingung von Z unabhängig von der Person U ist: Die Wahrscheinlichkeit für eine Person Z=0 bzw. Z=1 zugewiesen zu werden, ist immer ½. - Der durchschnittliche kausale Effekt des Treatments ist also: ACE10 = 14*0,25 + 4*0,25 + 18*0,25 + 2*0,25 = 9,5 Berechnung: Bedingter kausaler Effekt hinsichtlich einer Kovariate Z - Unter der Bedingung Z=1 betrachtet man nur noch die 2. und 4. Zeile der Tabelle. Die Effekte 4 (für X=Joe) und 2 (für X=Ann) werden summiert und mit ihrer Wahrscheinlichkeit gewichtet. - In diesem recht einfachen Beispiel lautet die Rechnung für den bedingten Effekt gegeben Z=1: CCE10; Z=1 = 4*0,5 + 2*0,5 = 2 o Für den bedingten Effekt gegeben Z=0. CCE10; Z=0 = 14*0,5 + 18*0,5 = 16 Berechnung: Bedingter kausaler Effekt hinsichtlich einer Treatment-Bedingung X - Der Effekt der Individualtherapie (X=1) versus keine Individualtherapie (X=0) gegeben (X=1) berechnet sich als bedingter Erwartungswert wie folgt: o E(d10 | X=1) = 14*P(d10=14 | X=1) + 4*P(d10=4 | X=1) + 18*P(d10=18 | X=1) + 2*P(d10=2 | X=1) § [Die gesamte Summe müsste man analog zur obigen Begriffseinführung auch als CCE10; X=1 bezeichnen können.] - Um die einzelnen Wahrscheinlichkeiten P(U=u,Z=z | X) in obiger Gleichung zu berechnen, sollte man sich zunächst klarmachen, dass gilt: d10=f(u,z) . Dies besagt: d hängt von U und Z ab, weshalb auch die Auftretenswahrscheinlichkeiten der Werte von d nur von der Person U und der Ausprägung z der Kovariate Z abhängen. o Diese bedingte Treatment-Wahrscheinlichkeit ist der Tabelle nicht zu entnehmen. Enthalten ist nur die umgekehrte Wahrscheinlichkeit P(X | U=u,Z=z) in der 4. Spalte von rechts. Um die gewünschte Wahrscheinlichkeit P(U=u,Z=z | X) zu berechnen, muss man das Bayes-Theorem anwenden. § Das Ergebnis steht im Buch, da können Sie überprüfen, ob Sie es richtig ausgerechnet haben. ] C 42 9. Sitzung vom 09.06.2009: Baseline-Bias und Effekt-Bias Abstract der Sitzung - Zunächst werden einige Fälle von Verfälschung und Nicht-Verfälschung anhand konkreter Zahlenbeispiele behandelt. o Dabei werden die Bedingungen herausgearbeitet, unter denen der Prima-Facie-Effect dem Average Causal Effect (nicht) entspricht. - Anschließend wird das sog. Bias-Theorem eingeführt, mit dem man zwei Arten von Verfälschung unterscheiden kann. - Abschließend wird kurz die Software Causal Effects Explorer vorgestellt, mit der man die behandelten Zahlenbeispiele generieren kann. Rückblick und Stand der Vorlesung Rückblick - In der letzten Stunde wurde die Definition kausaler Effekte mittels verschiedener Bedingungen (im mathematischen Sinne) vorgenommen. - Dabei stützten wir uns auf die Ergebnisse vorheriger Sitzungen. Die zentrale Ausgangserkenntnis, die wir anhand des Simpson-Paradoxon erarbeiteten, lautete: Mittelwerten alleine kann man nicht trauen, wenn es um die kausale Effektschätzung geht. o Daher benötigen wir eine von Konfundierungen bereinigte Variable die True-Outcome-Variable. § Diese kann man auf beliebige Variablen bedingen, woraus unterschiedlich definierte kausale Effekte folgen. o Der Kennwert d (genannt: True-Effect-Variable) ist dabei einfach die Differenz zwischen zwei verschiedenen solcher True-OutcomeVariablen. Agenda für die heutige Sitzung - Heute wird dieses Kapitel um eine andere Definition kausaler Effekte ergänzt, wo nicht eine Treatment-Gruppe mit einer anderen verglichen wird, sondern mit allen anderen (z.B. dem Mittelwert aus allen anderen). o Dies ist auch die Logik der gewöhnlichen Varianzanalyse, nur dass das Vorgehen hier stets auf der True-Outcome-Variable t basiert. o Später werden wir mit der Software Effectlite solche Effekte modellieren. - Das eigentliche Thema der Sitzung ist die Frage der Verfälschung. An Mittelwertsunterschieden (Prima-Facie-Effekten, PFE) sahen wird bereits, dass diese systematisch verfälscht sind, wenn man sie mit dem durchschnittlichen wahren kausalen Effekt (Average Causal Effect, ACE) vergleicht. o Dies werden wir heute anhand zweier Theoreme und einiger Beispiele ansehen. § Buch: Kapitel 6. Verfälschung und Nicht-Verfälschung Annahmen - Wir betrachten nun einige Beispiele, für die wir zunächst zwei Annahmen machen. o Erstens, wir vereinfachen und setzen E (Y|X, CX) = E (Y|X, U) § Damit betrachten wir die Personenvariable U als die einzige Störvariable. Alle möglichen Konfundierungen sind in der Person enthalten. · Diese Annahme ist sogar relativ plausibel, wenn man das einfache Experiment des Ziehens einer Person betrachtet. Unrealistisch ist die Annahme hingegen zum Beispiel, wenn zwischen der Erhebung von U und X bzw. Y Zeit vergeht, sodass sich andere Störvariablen realisieren können. Dies kann etwa bei prospektiven Studien der Fall sein. o Zweitens nehmen wir an, dass die Treatment-Wahrscheinlichkeit auch ausschließlich von U abhängt und darüber hinaus von keiner weiteren Störvariablen: P(X=1| CX) Erstes Beispiel für Verfälschung - [Alle nachfolgenden Erläuterungen beziehen sich auf die nachstehende Tabelle]. 43 - In allen Beispielen, die nachfolgend besprochen werden, sollen wie in der Tabelle angegeben 6 Personen als Population betrachtet werden. o 2. Spalte: Wahrscheinlichkeit dass die Person gezogen wird (1/6). o 3. Spalte: Kovariate Z ( Geschlecht ) o 4.-6. Spalte: Werte der True-Outcome-Variablen unter Kontrollbedingung, unter Treatment-Bedingung und die Behandlungswahrscheinlichkeit - Das Besondere an diesem Beispiel ist, dass die Wahrscheinlichkeit für ein Treatment X und die Baseline (Werte der unbehandelten Gruppe, 4. Spalte) nicht unabhängig von U sind. o Eine solche Beziehung ist typisch für Selbstselektion, wie sie z.B. bei Therapien vorliegt. Dort haben kränkere Personen eine höhere Treatmentwahrscheinlichkeit. Berechnung der Verfälschung - Würde man nun einfach unter Gewichtung der jeweiligen Auftretenswahrscheinlichkeiten (6. Spalte) die Mittelwerte der 4. und 5. Spalte bilden und den Prima-Facie-Effekt betrachten [siehe Abbildung], so käme man zu dem Ergebnis, dass das Treatment einen negativen Effekt hat: PFE10= 5.857 - Das Beispiel ist insofern eine Verschärfung des Simpson-Paradoxon, als für jede einzelne Person ein positiver Effekt vorliegt, obwohl eine Betrachtung der Gesamtmittelwerte einen negativen Effekt nahelegen würde! o Das Problem wird zwar abgeschwächt, wenn man die Subpopulationen der Männer und Frauen betrachtet, bleibt aber nach wie vor bestehen: Der durchschnittliche kausale Effekt beträgt 9.5 bei Männern und 11.0 bei den Frauen; der bedingte Prima-Facie-Effekt weist aber nur rund 2.3 (Männer) bzw. 7.9 (Frauen) aus. § Das Bedingen auf die Störvariable alleine genügt also nicht, um den Bias (d.h. die Unterschiedw zwischen bedingten kausalen Effekten und den verfälschten bedingten Prima-Facie-Effekte) gänzlich auszuschalten. - Die Berechnungsformel für den Erwartungswert von t0 [erste Zeile in der Abbildung] lautet: E(t0)=å E(Y|X=0, U=u) * P (U=u) - Die bedingten Erwartungswerte für die Kontrollgruppe errechnen sich durch E(Y|X=0) =å E(Y|X=0, U=u) * P (U=u | X=0) o [nicht genau erläutert, um welche Werte es sich handelt; Formel nicht näher erläutert; Zeitmarke: ca. 22:00 25:30] o Auf diese Formel kommt man anhand der Rechenregeln im Buch [keine Stelle genannt]. Rückfragen aus dem Auditorium zu den Berechnungsformeln - Worin besteht der Bezug zwischen diesen Formeln und der Tabelle? o Antwort Prof. Steyer: Betrachtet man den Erwartungswert für eine Subpopulation mit der Formel E(t0 |Z=z), dann muss man die Werte nehmen und mit ihrer bedingten Auftretenswahrscheinlichkeit gegeben Z=z multiplizieren. § Beispiel: Für die Subpopulationen Frauen würde man den durchschnittlichen Effekt des Treatments d10 wie folgt berechen rechnen E(d10 |Z=f) =8 * P (d10=8|Z=f) + 14 * P (d10=14|Z=f) = 11 - Was wäre, wenn nicht beide Frauen mit gleicher Wahrscheinlichkeit gezogen würden? o Antwort Prof. Steyer: Dann müsste man bei der Berechnung des Erwartungswerts von d10 in der Subpopulation der Frauen (die ja in unserem Beispiel nur aus 2 Personen besteht) eben die beiden Werte der Personen 8 und 14 anders gewichten. - Wir haben auf die Kovariate Geschlecht bedingt, die eine Funktion von U ist, und haben angenommen, dass U die einzige Störvariable ist. Woran liegt es dann noch, dass die bedingten Prima-Facie-Effekte nicht den kausalen Effekten entsprechen? 44 o Antwort Prof. Steyer: Zwei Dinge sind nötig, um die Verfälschung zu erklären: § X und U hängen voneinander ab und sind nicht unabhängig jede Person hat eine andere Treatment-Wahrscheinlichkeit, und in der Subpopulation der Frauen ist sie systematisch niedriger als in jener der Männer. § X und Y sind nicht unabhängig: Die Wahrscheinlichkeit für ein Treatment hängt mit den Ausgangswerten von Y zusammen. Zweites Beispiel für Verfälschung [34:00] - Der Unterschied zur ersten Tabelle liegt darin, dass die Treatmentwahrscheinlichkeiten alle gleich sind (sie beträgt für jede Person ¾). X und U sind also unabhängig. o Wir ziehen eine Person aus der Population und würfeln für jede Person aus, ob sie ein Treatment erhält. Es handelt sich also um ein randomisiertes Vorgehen. - Die Erwartungswerte der True-Outcome-Variablen bleiben gleich; sie hängen nicht davon ab, mit welcher Wahrscheinlichkeit man behandelt. Auch die individuellen Effekte sind alle gleich und werden nicht vom Design (wen man behandelt) beeinflusst. - Aber: Den durchschnittlichen kausalen Effekt des Treatments von 10.0 (den wahren Wert der True-Effect-Variable) kann man jetzt auch dann sehen, wenn man nur die Mittelwertsunterschiede zwischen den beiden Gruppen (kein Treatment: E(Y|X=0)=92.333; Treatment: E(Y|X=1)= 102.333) betrachtet; die Werte würden in der Stichprobe nur zufällig um diesen wahren Wert schwanken. o Grund [siehe oben eingeführte Formeln]: Die bedingte Wahrscheinlichkeit P(U=u|X=0) ist aufgrund der Unabhängigkeit von X und U gleich der unbedingten Wahrscheinlichkeit P(U=u) o Auch in den Subpopulationen sind der durchschnittliche kausale Effekt und der Prima-Facie-Effekt jeweils gleich: - Unter Randomisierung ist also alles in bester Ordnung , man bekommt, was man haben will . o Man kann diese Ergebnisse aber nur auf Populationen generalisieren, in denen das Geschlechterverhältnis so ist wie hier. 45 Drittes Beispiel für Verfälschung [42:30] - Nun sind die Treatment-Wahrscheinlichkeiten für Männer und Frauen unterschiedlich, innerhalb der Geschlechter jedoch gleich. - Dadurch hat man einen negativen Prima-Facie-Effekt, obwohl der wahre durchschnittliche kausale Effekt weiter 10 beträgt. - Auf Ebene der Subpopulationen bekommt man jedoch wieder die richtigen Ergebnisse. o Erklärung: Innerhalb der Subpopulationen sind X und U (bedingte Randomisierung) im Gegensatz zur Gesamtpopulation unabhängig. Dies ist hinreichend, um innerhalb der Subpopulation Unverfälschtheit zu erreichen. - Aus den bedingten Effekten für die Subpopulationen können wir auch wieder den Gesamteffekt berechnen: Der Erwartungswert über die bedingten Effekte gewichtet mit den Ziehungswahrscheinlichkeiten für Frauen und Männer ist der durchschnittliche Effekt: 9.5 * 2/3 + 11 * 1/3 = 10 o Dies wird in der Anwendung wichtig: Wir müssen mögliche Störvariablen kennen, um Subpopulationen bilden und damit die Effekte berechnen zu können. Das Bias-Theorem Baseline-Bias und Effect-Bias - Die normale Erwartungswertdifferenz bzw. der Prima-Faice-Effekt (PFE) setzt sich immer aus dem wahren Effekt (ACE) und zwei Arten von Verfälschungen zusammen: dem Baseline-Bias und dem Effect-Bias: PFEXX ACE XX + baseline bias XX + effect bias XX o Der Baseline-Bias ist dabei baseline bias XX E(tX | X=x) E(tX |X=x ) § Ergo: Differenz zwischen Treatment- und No-Treatment-Bedingung. Diese beträgt 0 (man hat also keinen Baseline-Bias), wenn die Behandlungswahrscheinlichkeiten nicht von den vorherigen True-Outcomes oder anderen Personeneigenschaften abhängen. · Dies hat noch nichts mit dem Effekt des Treatments bei der Person zu tun, sondern es geht allein um die Behandlungswahrscheinlichkeiten. o Der Effect-Bias ist dabei effect bias XX E(d X |X=x) ACEXX [01:08:00] § Der ACE ist definiert als Erwartungswert der unbedingten True-Effect-Variable d; hier wird nun die Differenz gebildet zwischen dem bedingten Erwartungswert der True-Effect-Variable und dem (unbedingten) ACE. Der Effect-Bias ist daher von 0 verschieden, wenn das Treatment von den Effekten abhängt, die die Person haben würde, wenn sie denn behandelt würde. · Ein guter Diagnostiker würde in der Realität den Klienten jeweils das Treatment zuweisen, das für den Klienten voraussichtlich die besten Effekte hat. Auch Selbstselektion (z.B. nach Bedürftigkeit bzw. Schwere der Störung) kann jedoch einen Effect-Bias produzieren. - Beide Biases zusammen ergeben, addiert zum durchschnittlichen wahren Effekt (ACE), jenen Effekt, den man auch sieht (also den PrimaFacie-Effekt). o Es kann allerdings auch passieren, dass Baseline-Bias und Effect-Bias sich gegenseitig aufheben, sodass man zwar eigentlich einen Bias hat, ohne jedoch dass der PFE und ACE sich unterscheiden. § In der Praxis sollte man versuchen, möglichst viele Variablen als Kovariaten zu erheben, die zu Biases führen können. Bias-Theorem für bedingte Effekte - Der zweite Teil des Theorems bezieht sich auf die bedingten Effekte. Auch hier gibt es für die PFE Funktionen nur eben in Abhängigkeit der Kovariate Z: o PFEXX ; Z ACE XX + baseline bias XX ; Z+ effect bias XX ; Z § baseline bias XX ;Z E°X=x (tX |Z) E°X=x (tX |Z) 46 § effect bias XX ;Z E°X=x (dXX |Z) CCEXX ; Z - Die Verfälschungsfunktion ist hier also eine Funktion der Geschlechtsvariable; wir können uns so die Werte der Verfälschungsfunktion getrennt für Männer und Frauen ausgeben lassen. o Auf Rückfrage: Was der Kreis neben dem Erwartungswert bedeutet, wird in der nächsten Stunde genauer behandelt werden. Einführung in die Software Causal Effects Explorer - [Das Programm kann von Studenten herunter geladen werden.] - Man kann damit Tabellen wie die oben eingeführten generieren und einzelne Werte darin austauschen. o Es werden dann automatisch Erwartungswerte der Spalten, PFE, ACE sowie auch die beiden Biases (baseline bias und effect bias) berechnet. - Durch Klick auf die verschiedenen Größen bekommt man in der rechten Spalte deren Definitionen in mathematischer Notation ausgegeben [siehe Screenshot]. - Gemäß der eingegebenen theoretischen Parameter kann man sich unter dem Dialogfeld Generate Data Daten erzeugen lassen. o Man kann die Fehlervarianzen um die eingegebenen Mittelwerte groß oder klein machen. o Wenn man auf Generate klickt, kann man sich die Daten als *.csv-Datei speichern lassen. - Auch die bedingten Effekte können betrachtet werden. So kann man theoretisch betrachten, was man tun oder lassen sollte, um sich Verfälschungen einzufangen oder diese zu vermeiden. M 10. Sitzung vom 16.06.2009: Die Allgemeine Definition der True-Outcome-Variablen, der Extension, Unverfälschtheit und die Grundidee der Adjustierungsverfahren Abstract der Sitzung - Zunächst wird die Extension berechnet [nicht verstanden]. - Im weiteren Verlauf wird daraus die allgemeine Definition der True-Outcome-Variablen tx hergeleitet. - Wenn man alle Kovariaten (confounding variables) kennt, kann man die Annahme der Unverfälschtheit treffen. Liegt Unverfälschtheit vor, kann man mittels der Extension die True-Outcome-Variable und letztlich die durchschnittlichen kausalen Effekte (ACE) schätzen. 47 - Eine (eher unzureichende) Anleitung, wie man diese Inhalte praktisch in Datenanalysen umsetzt, wird am Ende der heutigen Sitzung gegeben. INHALTSVERZEICHNIS 10. Sitzung vom 16.06.2009: Die Allgemeine Definition der True-Outcome-Variablen, der Extension, Unverfälschtheit und die Grundidee der Adjustierungsverfahren................................................................................................................................................................................47 Abstract der Sitzung.................................................................................................................................................................................47 Rückblick auf die letzte Sitzung............................................................................................................................................................48 Verändertes Simpson-Paradox ..............................................................................................................................................................48 Extension .............................................................................................................................................................................................49 Allgemeine Definition der True-Outcome-Variablen .................................................................................................................................50 Unverfälschtheit.......................................................................................................................................................................................50 Nutzen der Extension für Datenanalysen ...............................................................................................................................................50 Rückblick auf die letzte Sitzung - In der letzten Sitzung haben wir uns mit der Verfälschung und dem Bias der Prima-Facie-Effekte (PFE) beschäftigt. o Heute werden wir zum Kern der Kausalitätstheorie kommen [nicht genauer beschrieben]. - In den letzten Sitzungen haben wir bereits Kapitel 5 des Buches behandelt, die heutige Sitzung bezieht sich aber auf den letzten Teil des Kapitels 4. Verändertes Simpson-Paradox - Die Table 4.5 stellt eine Abänderung des Simpson-Paradoxons dar, wobei wir zunächst nur den oberen Teil betrachten. - Statt Gruppen, wie im eigentlichen Simpson-Paradox betrachten wir hier nur zwei Personen. Alle möglichen Resultate des Zufallsexperiments sind in den 8 Zeilen enthalten. Die drei Zufallsvariablen sind o Welche Person (unit)? Joe vs. Ann o Treatment? + vs. o Behandlungserfolg (success)? + vs. - Ausgehend von dieser Menge der möglichen Ergebnisse können wir alle bisher behandelten und noch folgenden Begriffe berechnen. 48 Erläuterungen zu einzelnen Spalten in der Tabelle - Die letzte Spalte (ganz rechts) enthält die unbedingten Verbundwahrscheinlichkeiten, die sich zu 1 addieren. Sie gibt an, wie hoch die Wahrscheinlichkeit ist, dass das jeweilige Elementarereignis auftritt. - Die 8. Spalte von links (1. Spalte im 3. Block) Conditional expectation E(Y | X,U) gibt die Werte der Outcome-Variable Y an, wenn man auf die Person U und die Treatment-Variable X bedingt. o In diesem Beispiel werden wie schon gelegentlich in vorherigen Sitzungen tungswertenwertens. Erfolgswahrscheinlichkeiten betrachtet anstatt Erwar- - Die 8. Spalte von links (2. Spalte im 3. Block) Conditional expectation E(Y | X) enthält die Werte der Outcome-Variable, wenn man die Person ignoriert und nur auf X bedingt. - Bei Berücksichtigung von Treatment-Bedingung X und Person U (1. Spalte im 3. Block) kann man immer einen positiven Effekt des Treatments beobachten, z.B. ist der Wert .80 höher als .70 (Vergleich 1. und 2. Zeile) oder .40 höher als .20 (Vergleich 7. und 8. Zeile). o Wenn man nur auf das Treatment bedingt, also E(Y|X) in der 2. Spalte im 3. Block der Tabelle, dreht sich dieser Effekt um: Das Treatment scheint zu schaden (.42 bei X=1 und .60 bei X=0). - In der 10. Spalte (4. Spalte im 3. Block) stehen die bedingten Erwartungswerte für den Fall, dass nicht behandelt wird: Conditional expectation EX=0 (Y |CX ) o Die Menge der potentiellen Störvariablen C besteht hier lediglich aus der Personenvariable U. o Die Werte stimmen für X=0 mit denen aus der 1. Spalte im 3. Block überein: .70 für Joe und .20 für Ann o Für X=1 ist diese bedingte Erwartung nicht eindeutig definiert, weshalb in der Tabelle 999 eingetragen ist. Der Wert ist beliebig, weil an diesen Stellen gilt P(X=0)=0. Diese Zeilen besagen ja gerade, dass ein Treatment vorgenommen wird, d.h. X=1. - Exkurs zum Begriff der bedingten Wahrscheinlichkeit, der im letzten Stichpunkt verwendet wurde. Die bedingte Wahrscheinlichkeit eines Ereignisses A ist definiert als: PX=x(A) = P(A|X=x) A A § A A bedeutet, dass der linke Teil für alle Ereignisse A aus der Ereignismenge A gilt. o Wenn das X eine positive Wahrscheinlichkeit hat, gilt zudem der untere Teil der untenstehenden Abbildung: o Ergebnis dieser Berücksichtigung von X ist, dass man statt eines Wahrscheinlichkeitsraums (W , A, P) jetzt (W , A, PX=x) hat. Ereignisse, die außerhalb dieses Raumes auftreten, z.B. alle bei denen X=x sind, haben eine Wahrscheinlichkeit von 0, weshalb in der Tabelle 999 als Wert abgedruckt ist. - Analog zu Conditional expectation EX=0 (Y |CX ) steht in der 5. Spalte von rechts Conditional expectation EX=1(Y |CX ) , d.h. die bedingte Erfolgswahrscheinlichkeit unter der Bedingung X=1. o Hier sind die Wahrscheinlichkeiten für jede zweite Zeile, in der X=0 gilt, wiederum willkürlich und in der Tabelle mit 999 bezeichnet. Extension - Wenn man die True-Effect und True-Outcome-Variablen berechnen möchte, kann man nicht die bedingten Wahrscheinlichkeiten verwenden, bei denen Werte willkürlich (gekennzeichnet durch 999) sind. o [Anmerkung Jonas]: Die bedingte Wahrscheinlichkeit für die Werte ist 0, weil es sich um die Schnittmenge aus z.B. Treatment und Nicht-Treatment handelt d.h. um leere Mengen. - Wenn alle Störvariablen in der Personenvariable U enthalten sind, ist die True-Outcome-Variable t wie folgt definiert: t0 (w) = E[ Y|X=0 , u=U(w) ] o Beispiel, Obige Gleichung auf die 3. Zeile der Table 4.5 angewandt: Wir ziehen die Person Joe (U=Joe), die nicht behandelt wurde (X=0), aber trotzdem einen Behandlungserfolg hatte (Y=1), z.B. also nicht rückfällig geworden ist. Der Erwartungswert hierfür (.70) ist in der 4. Spalte von rechts Extrapolation E°X=0(Y |CX) true outcome variable t0 abgetragen. § Obwohl Joe einen Behandlungserfolg hatte (Y=1), steht ein Erwartungswert für Y kleiner als 1, weil diese bedingte Erwartungswerte die Variable t1 darstellen. · [M: Nicht verstanden, die Teilnehmer der Präsenzveranstaltung trotz Nachfragen aber auch nicht. Zeit im Video ca.: 22:00 bis 27:30] o Dieser Vorgang, wie im Beispiel verbalisiert, ist eine Extension, die in der Tabelle allerdings mit Extrapolation bezeichnet. Exkurs: Berechnung des bedingten Erwartungswerts - [Zeit: 28:15] Auf Nachfrage einer Kommilitonin wird exemplarisch anhand der letzten Zeile der oberen Hälfte der Table 4.5 der bedingte Erwartungswert berechnet: 5. Spalte von rechts, Conditional expectation EX=1(Y |CX) - In dieser Zeile ist X=1 und Y=1 (siehe 5. bzw. 6. Spalte von links). Berechnet werden soll E (Y|X=1, U=Ann) . Dies ist definiert als o 0*P(Y=0|X=1, U=Ann) + 1*P(Y=1|X=1, U=Ann) § Die Wahrscheinlichkeit des ersten Terms ist 0, weil Y=1 zutrifft. Der erste Term fällt deshalb weg. Der zweite Term wird wie folgt berechnet: 49 o P(Y=1, X=1, U=Ann) / [P(X=1, U=Ann)] § Verbalisiert: Die bedingte Wahrscheinlichkeit ist definiert als Verbundwahrscheinlichkeit geteilt durch die Wahrscheinlichkeit für die Bedingung. Aus der Tabelle kann man den Wert der Verbundwahrscheinlichkeit ablesen (.152). Die bedingte Wahrscheinlichkeit muss man berechnen aus verschiedenen Einträgen o .152 / (.152 + .228) = .152 / .38 = .40 = E (Y|X=1, U=Ann) - Prof. Steyer: Es bietet sich an, an solchen Beispielen zu üben, weil man daran sieht, ob man die einzelnen Teile verstanden hat und wie sie zusammenspielen. Allgemeine Definition der True-Outcome-Variablen - Normalerweise steht als Menge der potentiellen Störvariablen CX , es gibt also mehr als nur die Störvariable U. - Der erste Schritt [hierfür wird keine weitere Erklärung geliefert] ist das Ersetzen der Variablen U (unit) und X (Treatment). Diese Replacement Functions sind mit der Bezeichnung Replacement mapping im dritten Block der Table 4.5 abgedruckt. Auf diese Weise gibt es zwei künstlich hergestellte [Omega] o r0: Das Ereignis (U, no) o r1: Das Ereignis (U, yes) [Zeit 36:00] - Die Werte für dieses stehen in der 4. Spalte von rechts: Extrapolation E°X=0(Y |CX) true outcome variable t0 - Aus diesem Vorgehen resultiert eine neue Definition der True-Outcome-Variablen, die auch andere Confounder-Variablen als nur U betrachtet und damit allgemeiner ist. o t0 = E(Y|X, CX) o r0 o Der Kreis o bedeutet, dass die beiden Funktionen E(Y|X, CX) und r0 miteinander verknüpft werden. § Man könnte z.B. statt f o g auch schreiben f(g), d.h. in diesem Fall t0 = E(Y|X, CX) ( r0) , was aber komisch aussähe. t0 bzw. t1 ) haben anders als die zuvor betrachteten bedingten Erwartungswerte für jede Zeile klar definierte Werte. Es gibt keine willkürlichen Werte (999) mehr. - Die neuen Variable (Spalten Extrapolation o Die Differenz dieser True-Outcome-Variablen (t1 t0) ist die True effect variable d10 = t1 - t0 (2. Spalte von rechts) - Die Extension besteht darin, dass man die Werte (.70 für Joe bzw. .20 für Ann) auch auf die Bedingungen ausweitet, wo in den Spalten zu bedingten Wahrscheinlichkeiten noch willkürliche Werte (999) vergeben sind. Unverfälschtheit - Bisher haben wir schon den Average Causal Effect (ACE) als Summe der Werte der True-Effect-Variable d (2. Spalte von rechts) mal deren Auftretenswahrscheinlichkeit (1. Spalte von rechts) berechnet. - Zusätzlich können wir nun auch Unverfälschtheit definieren. - Zunächst betrachten wir die Unverfälschtheit der normalen Erwartungswerte E(Y|X). Dieser Erwartungswert ist unverfälscht, wenn er den Erwartungswert der True-Outcome-Variable wiedergibt. o Es gilt also bei Unverfälschtheit für alle Werte von X: E(Y|X) = E(tx) - Für eine Regression der Y-Werte ist die Unverfälschtheit wie folgt definiert: EX=x(Y|Z) = E(tx|Z) o Dies bedeutet, dass die Werte E°X=x(Y|Z) unverfälscht sind, wenn E(tx|Z) gilt [nicht weiter erläutert, Zeit 59:10] Nutzen der Extension für Datenanalysen - Für die praktische Analyse benötigt man nun den nächsten Schritt. - Für den Erwartungswert E[E°X=x(Y|Z)] gilt bei Unverfälschtheit E[E(tx|Z)] . o Die rechte Seite dieser Gleichung E[E°X=x(Y|Z)] = E[E(tx|Z)] kann vereinfacht werden zu E(tx) - Der Nutzen der Extension E°X=x(Y|Z) besteht darin, dass man den Erwartungswert des tx berechnen kann. Der Durchschnitt der E(tx) ist der durchschnittliche kausale Effekt (ACE). Vorgehen in praktischen Datenanalysen - Der erste Schritt hierfür lautet Bestimme für jede Treatment-Bedingung X die Regression EX=x(Y|Z) . o In SPSS würde man hierfür Fälle auswählen anhand ihrer Ausprägung auf der X-Variable, z.B. alle Fälle in der Kontrollbedingung X=0. Anschließend soll man die Regression der Y-Variable auf den Regressor Z bilden. Diese Regression kann linear sein, es können aber auch andere Regressionen modelliert werden. Die praktische Schwierigkeit besteht darin, eine passende Regression zu modellieren. - Im zweiten Schritt soll man die Extension dieser Funktion EX=x(Y|Z) verwenden. o Wenn wir einmal davon ausgehen, dass diese Funktion für die Bedingung X=0 linear ist, gilt folgendes: EX=0(Y|Z) = 00 + 01*Z o Um die Extension dieser Funktion zu erhalten, berechnet man für jede Person in der gesamten Stichprobe den vorhergesagten Wert für diese (hier: lineare) Funktion mithilfe des jeweiligen Z-Werts für jede Person. § Diese neue Variable 00 + 01*Z ist eine Schätzung für die Extension E°X=0(Y|Z). - Anschließend bildet man den Mittelwert von E°X=0(Y|Z) , also E[E°X=x(Y|Z)] . Dieser Wert ist ein Schätzer für die True-Outcome Variable tx , wenn Unverfälschtheit gilt. 50 o [Zeit 1:08:00] Unverfälschtheit liegt vor (Wiederholung von oben), wenn folgende Gleichung gilt: E°X=x(Y|Z) = E(tx|Z) - Knackpunkt der Berechnung der True-Outcome-Variable und letztlich des ACE ist immer die Annahme der Unverfälschtheit. Hierfür benötigt man alle Kovariaten, die das Ergebnis verfälschen. Nur wenn man alle diese Kovariaten hat, die in dem Z der obigen Gleichung enthalten sind (das Z kann für mehrere Kovariaten stehen), ist die Annahme der Unverfälschtheit erfüllt. Materialien online - [1:25:00] Prof. Steyer wird Datensätze online stellen, damit wir wenn Sie lustig sind die oben dargestellten Schritte der Datenanalyse selber durchführen können. - Ebenfalls wird eine aktualisierte Version der Buchkapitel 4-6 online gestellt werden: Abgespeichert unter dem Dateinamen 2009-0609_KBUCHKap4bis6_9Juni2009.pdf , da noch laufend kleine Änderungen am Buch vorgenommen werden. C 11. Sitzung vom 23.06.2009: Kausalitätsbedingungen: hinreichende Bedingungen für die Unverfälschtheit Abstract der Sitzung - Zuerst werden acht verschiedene hinreichende Bedingungen ( Kausalitätsvoraussetzungen ) eingeführt, bei deren Erfüllung man von Unverfälschtheit ausgehen kann. o Diese Bedingungen beziehen sich auf die Zusammenhänge von X, Y und teilweise auch unter Berücksichtigung einer Kovariate Z. - Anschließend wird an einem Datenbeispiel präsentiert, wie man mit EffectLite kausale Effekte schätzen kann. Rückblick auf die letzte VL und Agenda für diese Sitzung - In der letzten Sitzung wurde die allgemeine Definition der True-Outcome-Variable eingeführt und die Unverfälschtheit verschiedener Größen definiert. o Die Unverfälschtheit ist die zentrale Voraussetzung, unter der wir adjustierte Mittelwerte schätzen können. Diese sind die Erwartungswerte der True-Outcome-Variablen, aus deren Differenz man wiederum die kausalen Effekte berechnen kann. § Vor allem im nicht randomisierten Fall (wenn also die Unverfälschtheit nicht automatisch gewährleistet ist) muss diese Voraussetzung an den Daten überprüft werden, denn Unverfälschtheit ist die erste Kausalitätsbedingung . - Heute sollen verschiedene Kausalitätsbedingungen betrachtet werden, die hinreichend für Unverfälschtheit sind. o [Diese Überlegungen finden sich in Kapitel 7 des Buches.] o [Im Folgenden werden die Kausalitätsbedingungen zur besseren begrifflichen Unterscheidung von bedingt vs. unbedingt als Kausalitätsvoraussetzungen bezeichnet.] Acht hinreichende Kausalitätsvoraussetzungen - Im Folgenden werden verschiedene unbedingte (1-4) und bedingte (3-7) Kausalitätsvoraussetzungen eingeführt. o Jede einzelne dieser Bedingungen ist bereits hinreichend und damit ausreichend für Unverfälschtheit. (1) Unabhängigkeit und (2) Homogenität - Die True-Outcome-Variablen sind theoretische Größen, in welche die Menge aller Störvariablen eingeht. Als theoretische Größen sind sie in Anwendungen nie direkt greifbar. Greifbar sind dagegen die Kausalitätsbedingungen, die zu Unverfälschtheit führen. Zwei davon lauten: - Zu (1): Impliziert, dass die Wahrscheinlichkeiten für X nicht mehr von den Störvariablen abhängen. Inhalt der Confounder-Sigma-Algebra CX sind alle Ereignisse, die vor dem Treatment oder gleichzeitig mit dem Treatment stattfinden können. o Beispiel: Unabhängig von dem Schweregrad der Depression ist die Behandlungswahrscheinlichkeit für alle Personen gleich. § Um dies zu gewährleisten, muss man bei der Zuweisung zu den Therapiebedingungen ein Zufallsexperiment durchführen also randomisiert zuweisen. 51 - Zu (2): Nimmt an, dass wenn man die Regression von Y auf X und die potenziellen Störvariablen betrachtet, die potentiellen Störvariablen keine Rolle für die Vorhersage von Y mehr spielen (also keine prädiktive Kraft haben), die über das X hinausgeht. o Beispiel: Hätte man ein Strukturgleichungsmodell wie in der rechten Abbildung, in dem ein Outcome Y durch ein Konstrukt h erklärt wird, so dürfte sich bei Hinzunahme des Geschlechts (G) als erklärende Variable keine Ladung von G auf Y finden h alleine erklärt bereits alle Varianz. § Hätte G eine Ladung auf Y, dann wäre die Bedingung nicht erfüllt und man würde falsche kausale Interpretationen vornehmen, wenn man dies ignorierte. Beispiel für Homogenität - Wir betrachten das folgende Zahlenbeispiel: - Die Bedingung (2) der Homogenität ist hier nicht erfüllt, da selbst bei gegebenem Treatment noch immer Unterschiede in den Erwartungswerten von Y zu finden sind[5. Spalte von links]. Es scheint also zusätzlich zur Treatmentvariable X noch weitere Einflussvariablen zu geben, die eine Rolle spielen. Im konkreten Fall ist dies das Geschlecht. o Mathematisch ausgedrückt: E (Y | X, CX) ¹ E (Y | X) § Unterschiede zwischen der 4. und 5. Spalte (d.h. zwischen den beiden Treatmentbedingungen) spielen für diese Annahme natürlich keine Rolle, da sie auf die Ausprägung von X zurückgehen, was ja untersucht werden soll. - Hält man die Geschlechtsvariable U konstant, dann ist die Homogenitätsannahme hingegen schon erfüllt sprich: in den Subpopulationen der Männer und Frauen gilt sie jeweils. Egal, welchen Mann man zieht: der Treatment-Effekt ist immer gleich; und egal, welche Frau man zieht, das Treatment wirkt immer gleich. (3) Unabhängigkeit von X und t und (4) Regressive Unabhängigkeit von t und X - Zu (3): Bezieht sich auf die True-Outcome-Variablen, welche man in einem Vektor t zusammenfassen kann. X und die potentiellen Outcome-Variablen müssen unabhängig sein. o In unserem Beispiel: Wenn das Outcome nicht die Behandlungswahrscheinlichkeit X beeinflusst, ist dies eine hinreichende Bedingung für die Unverfälschtheit der Regression E(Y|X). § Potenzielle Outcome-Variablen sind Eigenschaften der Person: Wie die Erwartungswerte unter der jeweiligen Treatment-Bedingung sind. - Zu (4): Die Verteilung der Erwartungswerte der ti dürfen nicht von X abhängen. Diese Annahme fordert also die regressive Unabhängigkeit der True-Outcome-Variablen von X. o [nicht näher erläutert]. 52 Verbindung zu Baseline- und Effect-Bias - In einer der letzten Sitzungen wurden Baseline- und Effect-Bias eingeführt: o Wenn die Wahrscheinlichkeit für das Treatment von der Ausprägung des Outcomes in der Kontrollbedingung abhängt, hat man den Baseline-Bias vorliegen. o Wenn die Treatment-Wahrscheinlichkeit von der Differenz zwischen zweien solcher t-Variablen abhängt (sprich: dem Effekt des Treatments gegenüber der Kontrollbedingung), so liegt der Effect-Bias vor. - Wenn, wie in Bedingung (3) gefordert, alle t unabhängig sind, dann impliziert dies die Unverfälschtheit. Beide Biases betragen dann 0. o [Nicht näher erläutert]. (5) Bedingte Unabhängigkeit und (6) Bedingte Homogenität - Die beiden folgenden Kausalitätsvoraussetzungen sind die bedingten Analoga zu den oben bereits ausgeführten unbedingten Kausalitätsvoraussetzungen. o Jede dieser Bedingungen ist hinreichend für die Unverfälschtheit gegeben eine Kovariate Z. - Zu (5): Eine Kovariate Z ist eine der Störvariablen, die in dem Cx stecken. Gegeben dieses Z liegt die Unabhängigkeit des X von den (restlichen) Störvariablen vor. o Diese Voraussetzung lässt sich nicht nur durch Randomisierung herstellen, sondern auch schon durch Einbezug von Kovariaten. § Beispiel: Man kann Patienten nach Schweregrad ihrer Störung (Z) der Therapiebedingung (X) zuweisen. Obwohl man hier nicht randomisiert hat, ist Unverfälschtheit gegeben, wenn die Zuweisung zur Therapiebedingung (X) von keiner weiteren Variable als dem Schweregrad abhängt. · Man kann Kovariaten nun also gezielt so auswählen, dass die Bedingung erfüllt ist. o Empirisch überprüfen kann man diese Bedingung, indem man untersucht, ob es innerhalb einer Ausprägung von Z noch unterschiedliche Zusammenhänge zwischen Y und X gibt. Ist dies der Fall, so muss man eventuell weitere Störvariablen unter Z hinzunehmen. § Die Annahme ist also direkt falsifizierbar. - Zu (6): Es gibt keine weiteren Störvariablen jenseits des Z, die das Y vorhersagen können. o Diese Annahe ist selbst jenseits der oben als Beispiel eingeführten Modelle mit latenten Variablen realistisch, denn man braucht nur all die Kovariaten herauszufinden, die das Y beeinflussen dann ist die Voraussetzung erfüllt. § Erinnern wir uns an das Simpson-Paradoxon: Das Übel entsteht dadurch, dass eine Störvariable gleichzeitig mit X und Y zusammenhängt. Wir schneiden hier den Zusammenhang mit dem Y durch , indem wir Z mit einbeziehen. So liegt keine Verfälschtheit mehr vor. o Empirisch überprüfen kann man diese Bedingung, indem man Z wie bei (5) konstant hält und testet, ob es über das X und Z hinaus weitere Variablen gibt, die Y beeinflussen (Beispiel: Der SES könnte Therapieerfolg jenseits des Schweregrads Z beeinflussen). § Die Annahme ist also ebenfalls direkt falsifizierbar. Beispiel für bedingte Homogenität (5) - In der oben bereits eingeführten Tabelle 7.1 gilt: Innerhalb der Z-Variable (Geschlecht) sind die Erwartungswerte von Y alle gleich. o U, die einzige potenzielle Störvariable in diesem Beispiel, spielt keine Rolle mehr. Dies gilt für alle ti und Z=z. - Hier kann man nun zunächst die bedingten kausalen Effekte von berechnen: Er beträgt 5 für Männer und 10 für Frauen. o Darüber kommt man dann auch auf den durchschnittlichen kausalen Effekt, indem man die bedingten kausalen Effekte mit ihrer Wahrscheinlichkeit gewichtet. - Würden wir die Z-Bedingung nicht berücksichtigen, so hätten wir wieder das Problem der Verfälschung des PFE10. (7) Bedingte Unabhängigkeit von X und t und (8) Bedingte regressive Unabhängigkeit von t und X - Nun folgen noch die Verallgemeinerungen von (3) und (4) für den Z-bedingten Fall: 53 - Diese beiden Bedingungen sind eher theoretisch wichtig, wohingegen (5) und (6) direkte Konsequenzen für die Auswahl von Kovariaten haben. o Die Annahmen (7) und (8) sind auch anders als (5) nicht direkt falsifizierbar, weil man die True-Outcome-Variable nicht kennt. Beispiel für (7) - In Tabelle 7.3 [gibt s noch eine 7.3 (im Buch) oder ist damit die 7.2, die unten steht, gemeint?] ist die Voraussetzung der bedingten Unabhängigkeit von X und der True-Outcome-Variable erfüllt: P (X=x | t, Z ) = P (X=x |Z ). Innerhalb der Männer unterscheiden sich zwar die Behandlungswahrscheinlichkeiten, sie tun es aber nicht in Abhängigkeit von der True-Outcome-Variable. Denn: o Zwar gilt: Die beiden Personen u1 und u2 haben für beide Treatmentbedingungen (t0 und t1) jeweils die gleichen Werte auf der TrueOutcome-Variablen, haben aber unterschiedliche Behandlungswahrscheinlichkeiten. o Und: Die beiden Personen u3 und u4 haben ebenfalls jeweils die gleichen Werte auf der True-Outcome-Variablen. o Jedoch: Mittelt man nun jeweils die Behandlungswahrscheinlichkeiten für u1 und u2 sowie für u3 und u4, so betragen beide 6/8. o Ergo: Für die Behandlungswahrscheinlichkeit spielt es keine Rolle, welche Werte man auf den True-Outcome-Variablen hat. Egal, ob man auf den True-Outcome-Variablen die Werte von u1 bzw. u2 oder jene von u3 bzw. u4 hat die Treatment-Probability beträgt stets 6/8. § Anders ausgedrückt: Die Behandlungswahrscheinlichkeit variiert hier in Abhängigkeit von U=u, aber nicht von Z=z. Datenbeispiel Datenbasis und Software - Das zu Download zur Verfügung gestellte Datenfile bezieht sich auf Tabelle 7.1, in welcher die Kausalitätsvoraussetzung der bedingten Homogenität gegeben Z erfüllt war: 54 - Der durchschnittliche Effekt beträgt 6.667, die bedingten Effekte betragen 5 für die Männer und 10 für die Frauen. Diese Werte sollten annähernd aufgefunden werden, wenn wir Datenanalysen durchführen. o Annähernd deswegen, weil es in realen Daten stets stichprobenbedingte Fluktuation gibt. - Der verfälschte Prima-Facie-Effekt von 0.290 sollte sich ebenfalls in den Daten auffinden lassen o Im Datenfile sind 10.000 Beobachtungen eingestellt, sodass die stichprobenbedingten Fluktuationen gering sind (Gesetz der großen Zahlen). § Mit EffectLite, das inklusive des Handbuchs auf der Seite http://www.causal-effects.de/ heruntergeladen werden kann [und von den Studierenden auch soll], wird nun die Datenanalyse durchgeführt. Effektschätzung - Der durchschnittliche Effekt wird, wie der Output zeigt, auf 7.062 geschätzt, der Standardfehler beträgt .0388, sodass die Effektschätzung in einem 66%-Konfidenzintervall liegt. Testprinzip - Geschätzt wird in EffectLite die Grundgleichung E(Y|X,Z) =g0 (Z) + g1 (Z) * X. o Die Treatment-Variable ist hier dichotom mit Werten 0 und 1. o Geschätzt werden konkret die g-Funktionen (bzw. ihrer Parameter gij), die als lineare Regressionen angesetzt sind: § g0 (Z) = g00 + g01 * Z § g1 (Z) = g10 + g11 * Z · Da auch Z linear ist, muss die Funktion linear sein. - In diese Effektschätzung gehen also zwei Annahmen ein: o Unverfälschtheit § Hinreichende Bedingungen dafür wurden heute behandelt. o Linerarität der g-Funktionen § Wollte man diese Annahme aufweichen, so müsste man dem Programm z.B. quadratische Kovariaten zur Verfügung stellen, indem man diese vorher im Datensatz durch Transformation erstellt. Signifikanztests - Der nachfolgende Screenshot zeigt, wie ein EffectLite-Output aussieht 55 - Erläuterungen zu einigen der Annahmen, die hier geprüft werden: o No average treatment effect: Die durchschnittlichen Treatment-Effekte sind 0. § Diese Hypothese kann in unserem Beispiel bei einem verschwindend geringen p-Wert verworfen werden. · Hätten wir mehr Treatment-Gruppen als nur zwei oder mehr abhängige Variablen, so hätten wir mehr Freiheitsgrade als hier (df=1). Alle dann möglichen Hypothesen würden in dem Test des durchschnittlichen Effekts gleichzeitig mit demselben ChiQuadrat-Test überpfrüft § Testet also, ob E[g1(Z)] =0 . o No treatment effects : Es gibt auch keine bedingten Treatment-Effekte. § Bezogen auf die g-Funktionen bei Männern: Ist g10 gleich 0 (denn wenn Z=0 ist, ist die Summe 0, wenn dies erfüllt ist)? § Bezogen auf die g-Funktionen bei Frauen: ist in der Gleichung die Summe der beide Parameter g10 und g11 * Z gleich 0? - Es kann sein, dass die erste dieser beiden besprochenen Hypothese (kein durchschnittlicher Effekt) gilt, obwohl die zweite nicht gilt (bedingte Effekte vorhanden) dies ist dann der Fall, wenn sich die bedingten Effekte für Männer und Frauen gegenseitig aufheben. M 12. Sitzung vom 30.06.2009: Analyse kausaler Effekte mit EffectLite. Inhaltliche und theoretische Bedeutung der Ergebnisse Abstract der Sitzung - Heute werden wir mit EffectLite die Inhalte der letzten Sitzungen auf künstlich hergestellte Daten anwenden, bei denen wir die wahren kausalen Effekte kennen. - Im Laufe der Sitzung wird zum einen das Output von EffectLite besprochen, zum anderen der Begriff und die Herleitung der Extension aus vorletzter Sitzung in einem Exkurs wiederholt. INHALTSVERZEICHNIS Abstract der Sitzung.....................................................................................................................................................................................56 Rückblick auf die letzte Sitzung............................................................................................................................................................56 Datenbeispiel in EffectLite (Fortsetzung)..................................................................................................................................................57 Grundlegendes zu EffectLite.................................................................................................................................................................57 Output in EffectLite..............................................................................................................................................................................57 Exkurs zur Extension ...............................................................................................................................................................................58 Zusammenfassung von Prof. Steyer zur Extension.................................................................................................................................58 Funktionsweise von EffectLite..............................................................................................................................................................59 EffectLite Output (Fortsetzung) ................................................................................................................................................................59 Rückblick auf die letzte Sitzung - In der letzten Sitzung haben wir mit EffectLite die Unverfälschtheit der Regression E(Y|X,Z) betrachtet und verschiedene hinreichende Bedingungen für diese Unverfälschtheit. 56 Datenbeispiel in EffectLite (Fortsetzung) - Letzte Sitzung wurde bereits mit der Analyse des Datensatzes table7.3_Probs.10000.sav begonnen, der auch auf der Website zur Vorlesung heruntergeladen werden kann. - Mit diesem künstlich hergestellten Datensatz werden wir in der heutigen Sitzung weiterarbeiten. o Man könnte aber auch wahre Daten betrachten, wo man die kausalen Effekte nicht kennt. Anwendung in EffectLite - Der Datensatz enthält die Variablen X, Y und Z. Sie werden im Programm nach dem Start als Group (treatment) variable , Outcome variable bzw. Covariate festgelegt. o X hat die Ausprägungn 0 und 1, wobei 0 als Referenzgruppe festgelegt wird (siehe Screenshot weiter unten). Grundlegendes zu EffectLite - Das Programm nimmt immer eine bedingte lineare Regression als Grundlage der Berechnungen: E(Y|X,Z) =g0 (Z) + g1 (Z) * X - Diese Gleichung ist immer wahr, wenn X nur zwei Ausprägungen hat. [Bei mehr Ausprägungen könnten quadratische oder höhere Funktionen die Daten u.U. besser beschreiben.] - g0 ist der Achsenabschnitt der bedingten Regression, die eine lineare Funktion ist, und g1 ihr Steigungskoeffizient. o Je nach Ausprägung von Z unterscheiden sich diese Werte, d.h. es gibt so viele g-Funktionen wie Ausprägungen von Z. - Die g-Funktionen können wiederum unterschiedlich modelliert werden. Wir nehmen üblicherweise lineare g-Funktionen an: o g0 (Z) = g00 + g01 * Z o g1 (Z) = g10 + g11 * Z - Wenn Z nur zwei Ausprägungen hat (wie im verwendeten Datenbeispiel, wo Z das Geschlecht ist), müssen die g-Funktionen sogar linear sein. Menüpunkt Sampling Model - In EffectLite wird nach dem Sampling Model gefragt (siehe obiger Screenshot). Ob es sich um stochastische Variablen ( fully stochastic ) handelt oder nicht, ist bedeutsam, wenn man den E[g1(Z)] betrachtet. o E[g1(Z)] ist der durchschnittliche Treatmenteffekt, gemittelt über alle Bedingungen der Kovariaten Z hinweg. o Der Erwartungswert der g1-Funktion lässt sich auch schreiben als: E[g1(Z)] = E[g10 + g11 * Z] = g10 + g11 * E(Z) § Normalerweise kennt man den E(Z) nicht, sondern der Erwartungswert dieser Kovariate muss geschätzt werden. Der Stichrobenmittelwert ist der Schätzer für E(Z). Wenn man diese Schätzung vornimmt, betrachtet man Z als Zufallsvariable, d.h. als stochastische Variable. In diesem Fall, muss in EffectLite fully stochastic ausgewählt werden. § Dies berücksichtigt bei der anschließend durchgeführten Hypothesensetzung, dass die Schätzer einen Standardfehler haben. - Wenn man aber die Gruppengrößen und den E(Z) bereits kennt, muss man group sizes and E(Z) fixed auswählen. Denn in diesem Fall muss man nicht mehr davon ausgehen, dass die Gruppengrößen und E(Z) um einen Wert herumschwanken und die Schätzer eine Fehlerkomponente aufweisen. o Die Auswahl von group sizes and E(Z) fixed bewirkt also, dass EffectLite die Stichprobenwerte als Populationswerte auffasst. - In EffectLite werden die Gruppen, aufgeteilt nach Ausprägungen von Z, getrennt analysiert. Der E(Z) wird aus den gruppenspezifischen Erwartungswerten heraus geschätzt, wobei die Gruppengröße eine Rolle spielt, weil in Abhängigkeit von ihr gewichtet wird. o Die Auswahlmöglichkeit group sizes fixed besagt, dass die Gruppengröße nicht mehr schwankt, d.h. es gibt keine Zufallskomponente mehr in der Gruppengröße. Damit sind die Gewichte, aus denen sich der E(Z) zusammensetzt, ebenfalls festgelegt, z.B. auf N=50 für Z=0 und N=60 für Z=1. - Von den 3 Auswahlmöglichkeiten, ist fully stochastic diejenige, die am häufigsten in der Realität zutrifft. Output in EffectLite - Nachdem wir nun im Startbildschirm von EffectLite zunächst die Variablen zugewiesen haben und dann wie oben beschrieben die Auswahl zu Measurement Model und Sampling Model getroffen haben (Screenshot, s.o.), erhält man nach Klick auf Continue den Output. 57 Mittelwerte der Kovariaten Z - Unter Group Means of the covariate(s) erhält man den Mittelwert für die Kovariate Z, aufgeteilt nach Gruppen anhand der Treatmentbedingung X. o Zudem wird angegeben: Die Standardabweichung ( Std.dev. ), woraus sich der Standardfehler ( Std.error , ebenfalls angegeben) berechnen lässt, indem man die Standardabweichung durch die Wurzel der Stichprobengröße teilt. - Im Beispiel sind die Mittelwerte von Z (hier: Geschlecht) in den Gruppen X=0 und X=1 ungleich, d.h. in einer Treatment-Bedingung gibt es mehr Männer, in der anderen mehr Frauen. o Geschlecht (Z) und Treatment (X) hängen also voneinander ab. - Ob die Mittelwerte für die Kovariate Z signifikant voneinander abweichen, wird durch einen Chi-Quadrat-Test unter dem Punkt Simultaneous test that covariate means are equal between treatment groups getestet. o Unter Prob. wird ein p-Wert ausgegeben. - Die Mittelwerte der Kovariate sollte man sich anschauen, da man bei eventuellen Mittelwertsunterschieden adjustieren muss [nicht weiter erläutert], bevor man kausale Effekte betrachtet. Rohmittelwerte - Die Rohmittelwerte, d.h. Unterschiede zwischen den Treatment-Gruppen, stehen unter dem Punkt Group means of the outcome variable(s) . o Sie stellen einen Prima Facie Effekt dar, ohne dass die Kovariate berücksichtigt wird. Adjustierte Mittelwerte - Erst unter dem nächstem Punkt im Output Difference between adjusted and raw means werden adjustierte Mittelwerte berichtet. - Die adjustierten Mittelwerte sind Schätzer für die Erwartungswerte der True-Outcome-Variablen, z.B. E(t0). o Die Differenz E(t0) E(t1) ist der Effekt des Treatments. - Adjustierte Mittelwerte sind unverfälscht. o Frage von Franzi: Wofür bzw. in Hinblick auf was sind die adjustierten Mittelwerte unverfälscht? § Als Antwort folgt ein Exkurs zur Extension - Es soll gelten E°X=0(Y|Z) = E(t0|Z) und E°X=1(Y|Z) = E(t1|Z) o Der Kringel hinter dem E bezeichnet, dass es sich um die Extension der Regression handelt. o Die Definition der Unverfälschtheit ist, dass beide Gleichungen gelten. [Zeit ca. 29:00] - Die Konsequenz dieser Unverfälschtheit ist, dass man den Erwartungswert auf beiden Seiten betrachten kann [nicht weiter erläutert]: E[E°X=0(Y|Z)] = E[E(t0|Z)] o [Dies ist eine Wiederholung aus einer der letzten Sitzungen. Prof. Steyer: Dies ist der Kern der Theorie. ] o Aus obiger Gleichung folgt E(t0) , weil der Erwartungswert einer Regression der Erwartungswert des Regressanden ist, d.h. E[E°X=0(Y|Z)] = E[E(t0|Z)] = E(t0) o Der Teil E[E°X=0(Y|Z)] wird über die adjustierten Mittelwerte geschätzt. Hat man ihn, kommt man über die obige Gleichung auf den Erwartungswert der True-Outcome-Variable. [Zeit 31:45] - Die Regression E(Y|Z) wird also in der Kontrollgruppe (X=0) gebildet, anschließend auf die gesamte Stichprobe extendiert ( das macht der Kringel nach dem E ) und der Erwartungswert der daraus resultierenden Gleichung genommen. o Wenn man für die Regression EX=0(Y|Z) von einer linearen Regression ausgeht, gilt: EX=0(Y|Z) = g00 + g01 * Z . Durch die Extension gilt die Gleichung für das gesamte Omega , nicht mehr nur für X=0. o Stattdessen wird E(g00 + g01 * Z) als Zufallsvariable auf dem gesamten Omega aufgefasst. - Die Extension bedeutet: E°X=x (Y|Z) (w) = E(Y|X=x, Z=Z(w)] [Zeit: 36:30] o [Versuch von M zu verbalisieren: Im linken Teil der Gleichung würden, wenn kein ° hinter dem E stehen würde, nur die Personen in einer Treatment-Gruppe, d.h. der Menge X=x, betrachtet. Durch die Extension betrachtet man alle Personen aus der Menge w.] Zusammenfassung von Prof. Steyer zur Extension - [Ab Zeit 38:00. Sehr gut, sehr kompakt und einigermaßen verständlich. o Dieser Abschnitt wiederholt zum großen Teil den letzten Abschnitt. Es sei der Kern dieser Veranstaltung .] - Die Y-Werte sind verfälscht, weil viele Effekte von Störvariablen eingehen. Man sieht beispielsweise am Simpson-Paradox, dass die Betrachtung der Y-Werte nicht sinnvoll ist. o Man versucht also, eine Zufallsvariable zu definieren, bei der die Verfälschungen herausgefiltert sind. Diese Variable nennt man t . Sie bezieht sich auf kleinste Strata , in denen der Mittelwert nicht mehr verfälscht sein kann. o Wenn man von diesen t Erwartungswerte bildet, können auch diese nicht mehr verfälscht sein, d.h. E(t0) oder E(t1) spiegeln die wahren Treatment-Effekte wider. E(tx) sind die wahren Mittelwerte, an denen man interessiert ist. Die Mittelwerte der Y hingegen interessieren nicht, weil sie verfälscht sind. 58 - Eigentlich möchte man aber nicht auf die t zurückgehen, d.h. die kleinsten Strata, in denen alle Störvariablen per definitionem herausgefiltert sind. Stattdessen sagt man: Diese (eine oder mehrere) Kovariate(n) Z reicht/reichen aus, um Unverfälschtheit herzustellen . Dann kann man aus der Gleichung E°X=0(Y|Z) auch schon kausale Effekte auf der Populationsebene berechnen. o Dass diese berücksichtigte(n) Kovariate(n) Z ausreicht/ausreichen, um Unverfälschtheit herzustellen, ist eine Annahme. Wenn diese Annahme zutrifft, müssen die beiden folgenden Gleichungen gelten [schon oben behandelt]: § E°X=0(Y|Z) = E(t0|Z) und E°X=1(Y|Z) = E(t1|Z) § Sie trifft beispielsweise zu, wenn man bedingt randomisiert. Bei echter Randomisierung ist Unverfälschtheit ohnehin gegeben. o Wenn diese Annahme gilt, bedarf es nur noch folgender Gleichung, um zu den Erwartungswerten der Outcomes zu gelangen: § E[E°X=0(Y|Z)] = E[E(t0|Z)] = E(t0) - Die Extension ist lediglich ein mathematisch-technischer Trick, um an E(t0) heranzukommen; sie hat keine inhaltliche Bedeutung. Funktionsweise von EffectLite - Wenn man die Regression E°X=0(Y|Z) ausrechnen möchte, aber über keinen Datensatz in EffectLite verfügt, sondern nur über Daten, z.B. in SPSS, müsste man folgendes tun: [Dies ist quasi eine Herleitung für das, was EffectLite tut] o Eine lineare Regression der Form g00 + g01 * Z berechnen. o Anschließend benötigt man die Extension. Sie bildet man, indem man für jede Person in der Bedingung X=0 ihren Z-Wert in die Gleichung g00 + g01 * Z einsetzt. Wenn man über diese Werte aller Personen mittelt, erhält man: E[E°X=0(Y|Z)] . o Das Gleiche macht man für alle Personen in der Bedingung X=1 und erhält damit Schätzungen für E(t0) und E(t1) . - Wir benutzen aber EffectLite und können deshalb E(g00 + g01 * Z ) , d.h. g00 + g01 * E(Z ) berechnen. [Zeit: 1:05:00] o Dies tut man über die Werte, die EffectLite ausgibt: Der Gesamtmittelwert von Z wird berechnet, indem man für die Mittelwerte der Gruppen X=0 und X=1 mit ihrer jeweiligen Wahrscheinlichkeit multipliziert, d.h. nach Gruppengröße gewichtet. § Deshalb spielt es auch eine Rolle, ob die Gruppengrößen fixiert oder stochastisch sind, d.h. schwanken. EffectLite Output (Fortsetzung) - Unter dem Punkt Group means of the outcome variables stehen die rohen und adjustierten Gruppenmittelwerte. o Der Unterschied wird unter Differences between adjusted and raw means auf Signifikanz getestet. Getestete Hypothesen - Unter dem Punkt Simultaneous tests for all treatment groups and all dependent variables werden die eigentlichen Hypothesen getestet, die immer als Nullhypothesen formuliert sind. - 1.) No average treatment effect: E(g1)=0 o Die Hypothese besagt, dass es gemittelt über alle Ausprägungen von Z keinen Effekt des Treatments X gibt. Hierbei werden die unterschiedlichen Größen der nach Z eingeteilten Gruppen berücksichtigt. o Die Hypothese betrachtet aber nicht nur den Durchschnitt gemittelt über die Kovariate Z, sondern testet auch den Durchschnitt über die individuellen Effekte; auch wenn diese in der Analyse nicht sichtbar werden. - 2.) No covariate effect in control group: g0 = constant o Die Hypothese besagt, dass in der Kontrollgruppe (X=0) alle Gruppen, aufgeteilt nach Z, den gleichen Wert haben. Demnach hängen die Y-Werte für die Kontrollgruppe nicht von der Kovariate Z ab. o Diese Hypothese hat nichts direkt mit Kausalität zu tun. - 3.) No treatment*covariate interaction g1=constant o Die Hypothese besagt, dass der Effekt von X auf Y immer der gleiche ist, egal was für einen Wert Z annimmt. o Anders formuliert: Der Unterschied hinsichtlich der Y-Werte zwischen den verschiedenen Bedingungen von X ist für alle Ausprägungen von Z gleich. § Angewandt auf unser Beispiel: Der Effekt des Treatments X wirkt sich für Männer und Frauen gleich aus auf Y. - 4.) No treatment effects: g1=0 o Diese Hypothese bezieht sich anders als die erste nicht auf den Durchschnitt über alle Z-Bedingungen, sondern besagt, dass es in jeder der durch die Ausprägungen von Z gebildeten Subgruppen keinen Effekt des Treatments X auf die Y-Werte gibt. o Wenn diese Hypothese nicht bestätigt wird, d.h. der p-Wert wird für diese Hypothese signifikant, weiß man aber noch nicht, in welcher der Subgruppen ein Treatment-Effekt vorhanden ist; er kann auch in allen Subgruppen existieren. § Hierfür muss man weiter unten im Output unter dem Punkt Effect functions g1: Group 1 Control group 0 in der Spalte hot: Keine bessere Qualität möglich.] die in der Zeile Coefficient den Wert für g11 ablesen. [Siehe Screens- 59 Detailed Analysis of the average effects - Unter diesem Abschnitt im EffectLite-Output wird zunächst der Effekt zwischen den Treatment-Bedingungen X für die abhängige Variable Y ausgegeben: Effect E(g1) - Die Effektgröße Effect Size ist der Effekt geteilt durch die Streuung der Y-Werte in der Kontrollgruppe (dieser Wert ist weiter oben im Output zu finden). - Der Punkt Effect/Std. Error liefert eine Art t- oder Z-Wert o t- und Z-Verteilungen sind bei großen Stichproben nahezu identisch. o Ist der Wert größer als 1,96 bedeutet dies, dass der Effekt signifikant ist. - Im Theorieteil der letzten Sitzungen haben wir nicht nur die Abweichungen einer Treatment-Gruppe, z.B. X=1, im Vergleich zu einer anderen, z.B. X=0, betrachtet, sondern auch die Abweichung einer Gruppe im Vergleich zum Mittel der Y-Werte aller anderen Gruppen, also dem E(t) . o Im Output findet man diese Abweichung unter dem Punkt Deviations of adjusted means from their average over groups Average effects given a treatment condition - In diesem Abschnitt des EffectLite-Outputs sind die durchschnittlichen Effekte unter den Bedingungen X=0 und X=1 aufgeführt, die wir auch schon in der Theorie der letzten Sitzungen kennengelernt haben. Die Frage dahinter ist z.B.: Was wäre der durchschnittliche Effekt für die Behandelten, wenn sie nicht behandelt werden würden? [Vorläufige Version des Skripts: Nur bis zur gelb markierten Überschrift in der 13. Sitzung überarbeitet.] C 13. Sitzung vom 07.07.2009: EffectLite-Analysen mit latenten Variablen und individuelle kausale Effekte (ICE) Abstract der Sitzung - Im ersten Teil der Sitzung wird der Umgang mit latenten Variablen in EffectLite diskutiert. o Dies wird anhand des bereits in der letzten Sitzung verwendeten Klauer-Datensatzes erfüllt. - Im zweiten Teil werden Modelle zur Modellierung des individual causal effect (ICE) eingeführt. Verwendung latenter Variablen in EffectLite Rolle latenter Variablen als Kovariaten - Latente Variablen werden mit Indikatoren gemessen. Warum sollte man sie bei der verallgemeinerten Kovarianzanalyse verwenden? o Man muss diejenigen Kovariaten kontrollieren, die einerseits mit der Treatment-Variable zusammenhängen (die also mit entscheiden, wie die Treatment-Wahrscheinlichkeiten aussehen), und andererseits die abhängige Variable beeinflussen. § Problematisch sind, wie wir gehört haben, Drittvariablen, die mit beidem zusammen hängen (Mediatoren) und so im kausalen Sinne einen Scheinzusammenhang verursachen. - Nun muss man sich fragen, welche Variablen es denn sind, welche die Treatment-Wahrscheinlichkeit beeinflussen. Hier gibt es zwei Möglichkeiten: o (1) Man entscheidet aufgrund der Messwerte in der Diagnostik, wer die Behandlung erhält. o (2) Durch Selbstselektion (z.B. hohen Leidensdruck) kann bei bestimmten Patientengruppen die Treatmentwahrscheinlichkeit erhöht sein. § Gerade bei Selbstselektion ist es sinnvoll, latente Variablen zu modellieren, obwohl Prof. Steyer eigenen Angaben zufolge noch nicht wirklich stringent begründen kann, warum man jene Kovariaten, welche die Selbstselektion erklären können, in solchen Fällen nicht auch als manifest modellieren könnte. - Im Folgenden Beispiel wird demonstriert, wie die Modellierung von Kovariaten rein technisch abläuft. 60 Vorgehen: Test- und Modellspezifikation - Nach dem Laden des Datensatzes muss man die verschiedenen Variablen spezifizieren: o (1) Die Treatmentvariable wählen: Diese heißt in diesem Datensatz einfach TREATMEN! o (2) Als Outcome-Variable werden die Nachtestvariablen der Coloured Progressive Matrices gewählt (CPM12 und CPM22). § Bei den Coloured Progressive Matrices handelt es sich um einen eindimensionalen, figuralen Matrizentest zur Messung der sprachfreien Intelligenz und des logischen Schlussfolgerns. § Der erste Index bezeichnet die Testhälfte, der zweite Index den Messzeitpunkt. o (3) Als Indikatoren für die Kovariaten werden die Vortestvariablen der Coloured Progressive Matrices (CPM11 und CPM21) gewählt. - Wir untersuchen also, ob sich das Treatment in Abhängigkeit von den Vortestwerten unterschiedlich auswirkt. Spezifikation des Messmodells - An dieser Stelle ist noch nicht entschieden, ob es sich bei dem Outcome und den Kovariaten jeweils um ein latentes Konstrukt, das mit zwei Indikatoren gemessen wird, handelt, oder um jeweils zwei verschiedene, für sich stehende manifeste Variablen. Diese Entscheidung trifft man auf der Registrierkarte Measurement Model, wo man zwischen den Optionen all manifest und some latent wählen kann. o Wir wählen zunächst den Weg all manifest : Die Option unterscheidet sich in der Analyse kaum von der anderen, nur dass die Tests von EffectLite dann tatsächlich multivariat sind; dies bedeutet, dass sich die Tests der Hypothesen auf zwei Variablen beziehen und einzeln für jede Outcome-Variable ausgegeben werden. § So hat man 6 Freiheitsgrade für die Hypothesentests: für beide Variablen hat man in der g1-Funktion je drei Parameter für die Treatment Variable und zwei Kovariaten. o Wir wählen nun some latent , was uns nach Klick auf Continue zu einem neuen Dialogfeld führt. Dort ist eine Ladungsmatrix vorgegeben, in dem man das Messmodell im Sinne von Ladungsmustern spezifizieren muss [siehe Screenshot]. So können durch Vergabe durch Nullen und Einsen die latenten Variablen definiert werden. § § § § Eine 1 bedeutet dabei eine Ladung von 1. 0 bedeutet keine Ladung Ein Asterisk bedeutet, dass die Ladung frei zu schätzen ist. Um Ladungen gleichzusetzen, muss man sie mit einem frei gewählten Buchstaben gleich benennen, genau wie in Mplus. - Wir spezifizieren das Messmodell wie in der rechten Grafik angegeben. Es handelt sich um ein kongenerisches Messmodell mit invarianten Ladungen über die Zeit. o F2 ist die latente Variable für das Outcome, d.h. die Nachtestwerte. o F1 ist die latente Variable für die Kovariate, d.h. die Vortestwerte. Vorgehen: Lesen des Outputs - Klickt man nun wieder auf Continue , so bekommt man Testergebnisse bezüglich der Outcomes, die sich auf latente Variablen statt separater manifester Variablen beziehen, ausgegeben. Messmodell, Fehlervarianzen und Kovarianzen - Für die Kovariaten werden jetzt die Ergebnisse des Messmodells ausgegeben, d.h. die Modellgleichungen für jede manifeste Variable in Bezug auf die latenten Variablen. Die latenten Variablen heißen, wie erwähnt, F1 und F2, und hier findet sich ganz einfach die Ladungsmatrix wieder, die wir eben unter Measurement model eingestellt haben: - Man bekommt dann auch die Fehlervarianzen der Kovariaten und Outcome-Variablen pro Treatmentgruppe ausgegeben: - Ferner werden ebenfalls gruppenspezifisch die Kovarianz-/Korrelationsmatrix der latenten Variablen ausgegeben. Die Korrelationen sind dabei kursiv gedruckt: 61 o In der Treatment-Gruppe korrelieren die latenten Variablen des ersten (F1) und zweiten (F2) Messzeitpunktes nur zu r=.77. o Bei den Unbehandelten liegt sie hingegen bei .095, korreliert also beinahe perfekt. Ergebnisse der Tests - Es folgen dann noch die deskriptiven Eigenschaften der Kovariaten, einschließlich eines Signifikanztests: - Ansonsten ändert sich durch die Wahl der Option some latent im Messmodell nichts an der Testlogik. Wir können den Output genauso interpretieren, wie wir es letzte Woche für den Fall manifester Kovariaten getan haben. - Man bekommt nun allerdings keine bedingten Effekte für jede Person ausgegeben [siehe nachfolgende Grafik Detailed analysis of the conditional effects ]. Man bekommt unter der Registrierkarte zwar noch die g1-Effektfunktionen (für die latente Kovariaten F1 und F2), aber wir können nicht pro Kind den bedingten Effekt ausrechnen, wie wir dies im manifesten Fall tun konnten, indem wir die conditional effects betrachteten. o Dies liegt daran, dass wir ja die Werte der Kinder auf den latenten Variablen nicht kennen, sondern nur die Werte auf den manifesten Indikatoren. § Man könnte höchstens eine Schätzung der Werte auf den latenten Variablen vornehmen, z.B. durch den Mittelwert der Werte auf den manifesten Indikatoren. Hierdurch müsste man aber wieder das Problem der Fehler lösen. · Ergo: Nachteil latenter Schätzungen ist, dass man nicht mehr ohne weiteres bedingte Effekte ausrechnen kann. o Der negative Koeffizient in der g1-Effektfunktion für F1 bedeutet: je höher die Vortestscores sind, desto geringer der Treatmenteffekt. § Es handelt sich also um eine Interaktion zwischen Vortestwert und Treatment in dem Sinne, dass jene mit hohen Vortestwerten weniger profitieren. - Als wir im vergangenen Semester den Gesamttest im Klauer-Datensatz mit manifesten Variablen analysierten, hatten wir stets Effekte zwischen 4,5 und 5. Nun, mit latenten Variablen haben wir geringere Effekte von rund 2,7. Dies liegt daran, dass die Skalierung der Teiltests, auf denen unsere latente Variablen jetzt basiert, anders ist: es handelt sich um Testhälften, sodass man den Effekt verdoppeln muss, um auf den im Gesamttest zu erwartenden Effekt zu kommen. o Auch die Effektstärke wird in Wahrheit nicht geringer, auch wenn dies aufgrund der Skalierung so aussehen mag. Mplus-Output - Es folgt nun eine Analyse des Mplus-Outputs. Den Mplus-Output sieht man sich an, um zu überprüfen, ob das spezifizierte Messmodell für die eingeführten latenten Variablen überhaupt passt. Einführung eines Methodenfaktors - Wie der schlechte RMSEA verdeutlicht, passt das spezifizierte Modell noch nicht gut. Daher führen wir nun einen Methodenfaktor ein. o Dies kann man tun, indem man im Messmodell einen weiteren Faktor F3 hinzufügt und jeweils die zweite Testhälfte darauf laden lässt [siehe oberer rechter Screenshot]. Es handelt sich um eine Modellierung mit Referenzmethode. § Im Messmodell wurden auch die Ladungen für F1 und F2 diesmal anders spezifiziert: die Ladungen zu einem Zeitpunkt wurden jeweils auf 1 gesetzt. 62 - Man kann den Methodenfaktor natürlich auch ohne Referenzmethode einführen [siehe unterer rechter Screenshot]. Dadurch ändert sich, wie wir aus dem vergangenen Semester wissen sein Inhalt: es handelt sich nun nicht mehr um den Truescore der jeweils ersten Indikatorvariable, wie bei der oben verwendeten Referenzmethode, sondern um den Durchschnitt der Truescores beider Indikatorvariablen. Auswirkungen des Methodenfaktors - Wie der Model Test zeigt, passt das Modell mit Methodenfaktor besser. Der Chi-Quadrat-Test wird nicht mehr signifikant, und auch der RMSEA wird etwas besser. - Die Einführung des Methodenfaktors ändert auch den Effekt etwas, da jetzt die g1-Effektfunktionen anders aussehen [siehe nachfolgender Screenshot]: Der Methodenfaktor (F3) wird wie eine weitere Kovariate behandelt. Fazit zur Verwendung latenter Variablen als Kovariaten - Wir behandeln latente Variablen im Grunde genauso wie manifeste; statt der manifesten Variablen tritt eine latente in die g1-Funktion, die auf zwei manifesten Variablen fußt. o Dadurch, dass man latente Variablen konstruiert, muss man nun ein Messmodell für ebendiese spezifizieren, das möglichst passend sein sollte. - Gegenüber einer normalen Kovarianzanalyse fällt die Restriktion, dass die Fehlervarianzen über die Zeit gleich sein müssen, weg. Latente und manifeste Variablen können außerdem auch interagieren. Modelle zur Analyse individueller kausaler Effekte (ICE) - [Es handelt sich um einen neuen, mit dem in der ersten Hälfte der Sitzung behandelten Thema, unverbundenen Abschnitt.] Grundproblem: Treatmenteffekte vs. Alternativerklärungen - Das Semester wurde mit der Frage nach der Evaluation intraindividueller Veränderungen begonnen. Dazu wurde der Reliable Change Index (RCI) eingeführt, mit dem wir das signifikanzstatistische Problem lösen konnten, ob eine Änderung zufällig zustande gekommen ist. - Offen blieb dagegen die Frage, ob eine gefundene Änderung auch wirklich auf das Treatment zurückgeführt werden kann. Diese Frage soll nun im Lichte der Theorie kausaler Effekte behandelt werden. Probleme der Kausalinterpretation beim RCI - Änderungen, die mit dem Reliable Change Index (RCI) angegeben werden, können nicht ohne weiteres auf das Treatment zurückgeführt werden, da Veränderungen auch durch ganz andere Dinge als die Intervention zustande kommen können. Wir wissen nicht, was mit den behandelten/nicht-behandelten Personen passiert wäre, wenn sie nicht behandelt/behandelt worden wären (genau diese Denkweise liegt dagegen, wie wir gesehen haben, der Kausalitätstheorie zugrunde). o Beispiel: Im Klauer-Datensatz reifen die Kinder innerhalb des betrachteten halben Jahres. Behandelt man sie nun, weiß man nicht, welcher Anteil der Veränderung auf Reifung und welcher tatsächlich auf die Intervention zurückgeht. Grundidee für eine Lösung des Problems kausaler Interpretation - Gegen das Argument möglicher Alternativerklärungen können wir uns durch latente Veränderungsvariablen wehren , die im Anschluss an den RCI behandelt wurden [wie, wurde nicht näher erläutert; Modell siehe rechte Abbildung]. Kausales Modell mit Veränderungsvariable - Gegen das Argument, dass die Veränderung auch ohne Treatment zustande gekommen sein könnte, können wir uns nur wehren, indem wir in dasselbe Modell eine neue latente Variable einführen, die auf folgendem Gedanken gründet: o Wir sehen uns eine Gruppe an, die nicht behandelt wurde. Bei dieser unbehandelten Gruppe sollte eigentlich gelten: no treatment, no change . Wir haben damit eine latente Variable f0 , die sowohl die Werte der Vortest-, als auch der Nachtest-Variablen erklärt (es handelt sich also um einen Trait). 63 o Falls Reifung oder kritische Lebensereignisse auftreten, so sollten diese in der Treatment- wie in der Kontrollgruppe gleichermaßen wirken, sofern sich die Gruppen nicht systematisch auf relevanten Variablen unterscheiden. Die Variable f0 sollte sich also gleichermaßen (mit gleichen Ladungen, Varianzen und Mittelwerten) in der Treatment- und No-Treatment-Gruppe finden. § Beispiel: Bei 11-jährigen und 16-jährigen könnte man im Bezug auf kognitive Tests unterschiedliche Reifungseffekte auf den CPMVariablen erwarten. Bei Gleichaltrigen hingegen sollten dieselben Prozesse stattfinden. - Die nachfolgende Grafik zeigt beispielhaft die Struktur eines solchen Modells. o Links ist die Struktur für die unbehandelte Gruppe abgebildet. Es gibt lediglich die latente Variable f0 , aber keine Veränderungen, d.h. kein Treatment.. o Rechts ist die Struktur für die behandelte Gruppe abgebildet. Hier gibt es zusätzlich die Veränderungsvariable f1 , welche die Effekte des Treatments fasst. - Wenn man das Modell bestätigen kann, dann ist es plausibel zu sagen, dass die Effekte in der Treatment-Gruppe auch tatsächlich nur auf das Treatment zurückzuführen sind. o In der unbehandelten Gruppe (links) muss die Veränderungsvariable (=Treatment-Variable) f1 dann eine Varianz und einen Mittelwert von 0 haben; alle Unterschiede zwischen den beiden Zeitpunkten sind ja durch den Trait f0 erklärt. Modell mit situativen Effekten - Das linke Modell, in dem nur der Trait f0 vorkommt, ist allerdings in der Realität kaum anzutreffen, da psychologische Messungen nie in einem situationalen Vakuum stattfinden; es wird also doch eine gewisse Veränderung in den Werten zwischen den Messzeitpunkten geben, die auf systematische situative Unterschiede oder andere Prozesse zurückzuführen ist. o [Dies kann auch im prüfungsrelevanten Artikel zu dieser Sitzung nachgelesen werden.] - Das Modell der no-treatment-Gruppe wird also eher wie das in der rechten Grafik abgebildete aussehen: Hier sind nun, obwohl es immer noch den Trait f0 gibt, situationale Unterschiede möglich. o Es handelt sich um ein latent-state-trait-Modell. - Der Unterschied solcher Modelle zu dem Vorgehen bei EffectLite ist, dass die kausale Inferenz auf einem Vorher-Nachher-Vergleich basiert, wohingegen sie bei EffectLite auf einem Vergleich zwischen einer Treatment-Gruppe und einer No-Treatment-Gruppe fußt. o In der latenten Variable f1 steckt wieder die Idee, zu überprüfen, was in der Treatment-Gruppe passieren würde, wenn dort nicht behandelt würde: dann nämlich hätte f1 einen Mittelwert und eine Varianz von 0. § Dieser Gedanke ist die allgemeine Grundidee kausaler Inferenz. Verallgemeinerung des Modells: Individuelle kausale Effekte - Im Folgenden wird ein allgemeines Modell beschrieben, das kausale Interpretationen ermöglicht, indem für Treatment- und No-Treatment-Gruppe wie in den obigen Modellen latente Variablen modelliert werden, die zweierlei Möglichkeiten der Veränderungen zwischen Messzeitpunkten widerspiegeln: o solche, die auf systematische Veränderungen jenseits des Treatments zurückgehen (z.B. Reifung, Situationsunterschiede) o solche, die spezifisch auf das Treatment zurückzuführen sind - Das Modell umfasst drei Messzeitpunkte. o Die normale, nicht auf das Treatment zurückzuführende Veränderung, die im Modell für X=0 modelliert wird, bekommt man heraus, indem man die Zeitpunkte 1 und 2 betrachtet. o Die Intervention würde hier zwischen Zeitpunkt 2 und 3 ansetzen. - Hierbei gibt es wie oben zwei verschiedene Modelle für die beiden Gruppen: o Im Modell für die Kontrollgruppe (X=0) wird lineares Wachstum zwischen den Messzeitpunkten modelliert, das nicht auf das Treatment zurückzuführen ist. § h1 ist die Vortestvariable § h2 h1 ist die Veränderungsvariable. o Im Modell für die Treatmentgruppe (X=1) kommt nun eine weitere Veränderungsvariable hinzu, die auf den linearen Trend, der auch ohne Treatment zustande kommen, draufgesetzt werden. Die Werte dieser Variablen sind die Treatment-Effekte. 64 § Diese latente Variable wird ICE (individual causal effect) genannt. - Das Modell ist in der nachfolgenden Skizze abgebildet: M 14. Sitzung vom 14.07.2009: Rückblick und Fragestunde Abstract der Sitzung Organisatorisches & Ankündigungen - Auf der Website zur Vorlesung steht im Abschnitt zur heutigen Sitzung das gesamte Buch Probabilty and Causality in einer aktualisierten Version zum Download. - Das Buch ist allerdings noch unvollständig, weil ein Kapitel über die Unkonfundiertheit noch fehlt. Deshalb werden diese Inhalte auch nicht Gegenstand der Prüfung sein. Rückblick auf die Inhalte dieses Semesters - In den ersten Sitzungen haben wir den RCI (reliable change index) behandelt. - Anschließend haben wir Veränderungsmodelle (True-Change- und Wachstumskurvenmodelle) entwickelt, um Veränderungen abbilden zu können. - Am wichtigsten war der thematische Block zu Kausalität. Kausalität - Beim Thema Kausalität haben wir beim Simpson-Paradox begonnen, das uns verdeutlicht hat, dass wir nicht einfach Mittelwertsunterschiede betrachten können, wenn wir etwas über kausale Effekte erfahren wollen, da die Mittelwerte meist verfälscht sind. - Um Kausalität schätzen zu können, muss man alle Störvariablen konstant halten, weil es dann keine Verfälschung mehr geben kann. Bei Konstanthaltung in den kleinsten Strata (Einheiten), erhält man die True-Outcome-Variablen. Diese kann man wieder aggregieren, so dass man wieder zu kausalen Effekten für größere Einheiten gelangt. - Hinreichende Bedingungen für die Unverfälschtheit, z.B. die Unkorreliertheit von Treatment- und Outcome-Variable, haben wir kennengelernt. Diese Bedingungen können über das Untersuchungsdesign, z.B. per Randomisierung oder bedingter Randomisierung, hergestellt werden. o Wenn man nicht randomisieren kann, muss man die Kovariaten, die mit Treatment und Outcome zusammenhängen, erheben, um anschließend für sie zu kontrollieren. Formaler Teil der Kausalitätstheorie - Wir haben spezifiziert: o Filtration: Stellt Phasen (zeitliche Abläufe) im kausalen Prozess dar. o Die Menge aller Störvariablen. - Ohne diese Struktur macht es keinen Sinn nach der Kausalität zu fragen, sondern kann nur Korrelationen und regressive Abhängigkeiten betrachten. 65 Fragen der Teilnehmer 1.) Prüfbarkeit von Bedingungen für Kausalität - Frage: Wie genau würde man Bedingungen, unter denen man kausale Schlüsse ziehen kann, empirisch prüfen? Bedingte Unabhängigkeit - Beispielsweise kann man dies mit der bedingten Unabhängigkeit tun. Demnach muss für jede Ausprägung der Kovariate Z (z.B. Geschlecht) gelten, dass jede beliebige Störvariable Cx aus der Menge C unabhängig von der Treatment-Variable X ist. o Beispiel: Innerhalb der Männer (Z=1) muss die Störvariable Z (Abitur ja vs. nein) unabhängig von der Einteilung in TreatmentBedingungen X (Behandlung ja vs. nein) sein. § Die Bedingungen ergeben eine 2x2-Matrix und die Unabhängigkeit kann mittels eines ²-Tests überprüft werden. - Das obige Beispiel funktioniert nur bei Variablen mit diskreter Merkmalsausprägung. Für kontinuierliche Variablen kann man (logistische) Regressionen rechnen, bei denen die Störvariable der Prädiktor/Regressor und die Treatment-Variable X der Regressand ist. o Wenn die Vorhersage gelingt, gibt es signifikante Abhängigkeit. Dies ist ein Hinweis darauf, dass die Bedingung der bedingten Unabhängigkeit nicht erfüllt ist. Homogenität - Die Bedingung der Homogenität besagt, dass in bestimmten Subgruppen (z.B. Z=1, männlich) die Ausprägung der Outcome-Variable Y von keiner weiteren Variable als der Treatment-Variable X abhängen darf. - Die Homogenität ist überprüfbar, indem man in einer Regression Y als Regressanden durch den Regressor X vorhersagt. Die Hinzunahme von Störvariablen als weitere Prädiktoren darf dann nicht mehr Varianz aufklären, d.h. es darf keine signifikante Veränderung für r² erfolgen. o Formal: Die Regression E(Y|X,Z) muss genauso viel Varianz aufklären wie E(Y|X,Z,W), wobei W eine Störvariable ist auch die Hinzunahme mehrerer Störvariablen ist möglich. - Wenn W zusätzlich Varianz aufklärt, ist nicht aller Tage Abend , sondern man muss die Störvariable W nur als eine weitere Kovariate Z behandeln, für die man ebenfalls kontrolliert. o Wenn man keine weiteren Störvariablen W findet, die zusätzlich Varianz aufklären, sondern alle in Z berücksichtigt hat, hat man wieder die Bedingung erfüllt, um kausale Schlüsse zu ziehen. o Es ist dann die Rolle weiterer Nachforschungen oder kritischer Reviewer, neue Störvariablen aufzuzeigen, die dann die gezogenen kausalen Schlüsse in Frage stellen. o Dabei handelt es sich um ein Vorgehen nach dem Falsifikationsprinzip: Wenn man nicht randomisiert, kann man niemals verifizieren, dass es sich um einen kausalen Effekt handelt. Aber die Behauptung, dass eine kausale Abhängigkeit vorliegt, ist über die Falsifikation empirisch prüfbar. Exkurs: Differenzwertanalyse - Die Differenzwertanalyse ist der Vergleich von Prä- und Post-Werten. Auf dieser Grundlage kann man die kausale Wirkung eines Treatments nur interpretieren, wenn es randomisiert wurde. - Mittels einer Differenzwertanalyse kann man keine Aussagen über kausale Effekte treffen, wenn nicht randomisiert wurde. 2.) Adjustierung - Frage: Bitte noch einmal das Prinzip der Adjustierung erklären. Antwort - Der Kerngedanke der Adjustierungstheorie basiert auf der Annahme der Unverfälschtheit, die formal durch die folgende Gleichung definiert ist: E°X=x(Y|Z) = E(tx |Z) o Um die Erwartungswerte für die True-Outcome-Variablen zu erhalten, muss man auf beiden Seiten der Gleichung den Erwartungswert einfügen, d.h. E[E°X=x(Y|Z)] = E[E(tx |Z)] o Weil der Erwartungswert der Regression, der Erwartungswert des Regressanden ist, folgt: E[E°X=x(Y|Z)] = E(tx) - E°X=x(Y|Z) bedeutet, dass man über die Verteilung von Z mittelt. - [Für die Klausur muss man kein Wissen über die Extension in ihrer Tiefe haben.] 3.) Frage - Im Anschluss an die vorherige Frage: Wieso ist der E[E°X=x(Y|Z)] nicht gleich dem E(Y) ? Antwort - Die Begründung etwas mit der Rechenregel 4 zu tun. [Was ist sie? Wo steht sie? Weitere Ausführungen nicht verstanden.] o [Zeit im Video: 27min 30sec] 66 - Prof. Steyer: Dies ist zugegebenermaßen etwas schwierig und wir legen auch kein Schwergewicht auf das Verständnis dieser Feinheiten. Ich will Sie nicht davon abhalten, sich darein zu wühlen, aber das ist nicht das, worauf es jetzt bei Ihnen ankommt. o Wichtiger als diese Feinheiten der Wahrscheinlichkeitstheorie sei es, wie man Kovariaten auswählt und dass man beim Interpretieren der Mplus-Outputs weiß, welche Annahmen gemacht wurden. 4.) Anwendung der Extension - Frage: Wird die Extension nur bei der Adjustierung genutzt oder noch woanders? Antwort - [Zeit ca. 31min 00sec] Die Frage nicht wirklich beantwortet, sondern es folgte ein längerer Exkurs, an dessen Ende die Aussage stand: Dafür braucht man die Extension und das passiert eigentlich nur bei der Adjustierung. 5.) Mplus und EffectLite - Frage: Ist es sinnvoll, erst in Mplus anhand des Model Fit zu überprüfen, ob das Messmodell passend ist und erst in einem zweiten Schritt in EffectLite die Daten zu analysieren? Antwort - Es kommt darauf an, wie robust EffectLite gegenüber fehlerhaft spezifizierten Modellen ist dies ist nahezu unbekannt. - Auf Nummer sicher geht man allerdings, wenn man zunächst die Passung des Messmodells in Mplus überprüft, auch wenn Prof. Steyer in der Vorlesung gelegentlich zunächst die kausalen Effekte in EffectLite analysiert hat. 6.) Standardnormalverteilung des RCI - Müssen die eigentlichen Messwerte (prä und post) in eine Standardnormalverteilung überführt werden, damit man den RCI, der standardnormalverteilt ist, berechnen zu können? Antwort - Nein, diese vorherige Überführung ist nicht erforderlich. - Eine Voraussetzung ist allerdings, dass die Messwerte normalverteilt sind. Daraus ergibt sich dann auch eine standardnormalverteilte Differenz (ebenfalls eine Voraussetzung), wenn man durch die Streuung der Differenzen teilt. 7.) t als Funktion von U - Frage: Wann ist die True-Outcome-Variable t eine Funktion [lediglich] von U ? - [Antwort: schon selber vom Studenten gegeben] Dies ist nur der Fall, wenn die Confounder-Sigma-Algebra durch U erzeugt wird. Ergänzungen von Prof. Steyer - In jeder Person U stecken alle Erfahrungen und Einflüsse, die die Person bis zum Zeitpunkt der Messung gemacht hat. Nachfrage 1 - Frage: Warum ist die True-Outcome-Variable t eine Funktion von U und nicht von X und U ? [Zeit 48min 30sec] - Antwort: In den Tabellen, die wir uns im Buch angeschaut haben, sehen wir, dass die t-Werte, bei einmal festgelegtem X nur noch eine Funktion der Person U sind. Nachfrage 2 - Frage: Werden bei der alleinigen Betrachtung der Personenvariable U situative Einflüsse, z.B. die Form in Abhängigkeit der Tageszeit, vernachlässigt? - Antwort: Nein, denn die situativen Einflüsse gehen in die Personenvariable mit ein: U meint je nach Tageszeit etwas anderes. o [Ergänzung: Der Personenbegriff ist hier ein anderer als beispielsweise in der Differentiellen Psychologie, wo man etwa zwischen Person (dispositional) und Situation (Umwelteinflüsse) differenziert.] 8.) Störvariablen I - [Zeit ca. 1:05:00] Wir sagen: Wir schauen uns alle möglichen Störvariablen an. Aber: Wann hat man alle möglichen Störvariablen? Wann ist es unter Umständen inhaltlich nicht mehr plausibel eine weitere Störvariable zu betrachten, selbst wenn diese noch in signifikanten Zusammenhang mit der Treatment-Variable steht? Antwort - Die Frage, welche Störvariablen man noch in die Berechnung aufnehmen soll, hängt davon ab, ob sich die adjustierten Mittelwerte nennenswert verändern, wenn man weitere Störvariablen hinzuzieht. Was allerdings nennenswert bedeutet, kann man unter verschiedenen Gesichtspunkten betrachten. 67 o Statistisch: Gibt es noch eine signifikante Veränderung? o Inhaltlich: Vielleicht ist eine signifikante Veränderung so gering, dass sie kaum ins Gewicht fällt die Störvariable aber das inhaltliche Modell verändern würde. Dann könnte man auch von einer Berücksichtigung absehen. 9.) Störvariablen II - Beim RCI machte es einen Unterschied, ob Prädiktoren (X) oder das Kriterium (Y) messfehlerbehaftet sind. Was sind jeweils die unterschiedlichen Auswirkungen? o Prof. Steyer: Die Frage ist letztlich, warum es einen Unterschied macht, wo Messfehler hängen. Antwort - Wenn man bei der Regression E(Y|X) annimmt, dass das Y fehlerbehaftet ist, gilt: Y = t + e o Daraus folgt: E(t+e |X) , was E(t |X) + E(e |X) entspricht. § E(e |X) sollte =0 sein und fällt weg, weil innerhalb jeder Treatment-Bedingung der Erwartungswert der Fehler =0 ist. o Letztendlich gilt also: E(t+e |X) = E(Y|X) § Deshalb ist es unproblematisch, wenn die abhängige Variable fehlerbehaftet ist. - Wenn X fehlerbehaftet ist, gilt X =t + e , woraus für eine lineare Regression E(Y|X) =a0 + a1*X folgt § E(Y|X) =a0 + a1*(t +e) ausmultipliziert wird daraus: § E(Y|X) =a0 + a1*t + a1*e o Diese Regression will man dann mit folgender Regression vergleichen [warum wurde nicht erläutert]: E(Y|t) = b0 + b1*t o In diesem Fall gilt: a1 b1 , aber Prof. Steyer hat keine Idee, wie man das zeigen kann: Dazu gibt es aber entsprechende Literatur. - Im obigen Fall, wo Y fehlerbehaftet war, würde gelten: a1 = b1 10.) Kodierung von Wachstumskurvenmodelle - Wann sollte man sich für welche Kodierung bei Wachstumskurvenmodellen entscheiden? Antwort - Wir haben eigentlich nur zwei Kodierungen betrachtet. Die Kodierung 0, 1, 2 ist dann in Ordnung, wenn man keine quadratischen Terme miteinbezieht. o Sobald man aber quadratische Terme oder Terme noch höherer Ordnung verwendet, ist der vermeintlich lineare Term bei der Kodierung 0, 1, 2 nicht mehr als linearer Trend interpretierbar und man sollte eine andere Kodierung wählen. 11.) Organisatorische Frage zur Klausur - Die Reihenfolge der Klausurfragen wird normalerweise durchgemischt, damit man nicht voneinander abgucken kann. Dies hat aber zur Folge, dass man sich bei jeder Frage in einen neuen Themenkomplex eindenken muss. - Wäre es möglich, dass man Themenblöcke als Ganzes in der Klausur zusammenhängend lässt? Antwort von Prof. Steyer - Ich stecke da in der Technik nicht drin. Fragen Sie mal Frau Fiege, ob das möglich ist. - Er wird diese Anregung einbringen. Vielleicht sei es möglich, dass vor jeder Frage das Themengebiet, z.B. RCI oder Kausalität , geschrieben wird. 68