Skript Computergestützte Datenanalyse

Werbung
Skript Computergestützte Datenanalyse
SS 2014
Vorlesung 1
SEM
Vereinigung von Pfadanalyse und konfirmatorischer Faktorenanalyse
Testung komplexer Zusammenhangshypothesen mit Kausalrichtung unter Berücksichtigung des
Messfehlers im Modell
Vorsicht: Man kann zwar Kausalrichtungen modellieren, aber die Voraussetzungen um Kausalität zu
überprüfen bleiben die gleichen!
Voraussetzungen:
• Korrekte Modellspezifikation -> ich übersetze meine Theorie in ein statistisches Modell
• Modellidentifikation (t-Rule, Metrik latenter Variablen, ob z.B.in m, cm oder dm gemessen)
• Multivariate Normalverteilung (Mardias Test, Mahalanobisdistanzen plotten)
• Homoskedastizität
• Unabhängigkeit der Beobachtungseinheiten
Welche Parameter werden im SEM geschätzt?


Pfadkoeffizienten (β)
Varianzen exogener (Residual)Variablen
Welche Parameter sind im SEM festgelegt?

z. B. Ladungen für Residuen sind auf 1 fixiert
Welche Parameter werden für die Zuweisung der Metrik im SEM festgelegt?
z.B. eine Ladung pro latenter Variablen ODER Varianz der latenten Variablen
1
t-rule anwenden können
Modellidentifikation: t-Rule
1. ☺ Anzahl Informationen* > Anzahl zu schätzender Parameter
Modell ist überidentifiziert. (Modellfit interpretierbar)
2.  Anzahl Informationen* < Anzahl zu schätzender Parameter
Modell ist unteridentifiziert. (Modell kann nicht geschätzt werden)
Man kann zu Modellrestriktionen greifen, z.B. könnte man Ladungen gleichsetzen
oder fixieren. Dies sollte jedoch inhaltlich begründbar sein.
3. Anzahl Informationen* = Anzahl zu schätzender Parameter
Modell ist exakt identifiziert (saturiertes Modell), Modell passt immer perfekt auf die
Daten.
Dies ist aber eine rein mathematische Eigenschaft, ohne inhaltliche Bedeutung. Folge: Der
Modellfit kann nicht beurteilt werden. Hat man guten Grund anzunehmen, dass die
Modellspezifikation gültig ist, können dennoch einzelne Koeffizienten interpretiert werden.
*Anzahl an Informationen = Anzahl einzigartiger Varianzen und Kovarianzen. Kann berechnet werden
durch p*(p+1)/2, wobei p = Anzahl manifester Variablen
wenn df (Freiheitsgrade) positiv, dann ist die T-Regel erfüllt
wenn df= 0-> saturiertes Modell
CFA
- Reflexives Messmodell
- Statt β schreiben wir λ
- Die stand. λ sind die Faktorladungen
- Die R²te zu X1, X2, Xk … sind die Kommunalitäten
- Die Varianz der Residuen beschreibt den Messfehleranteil beim zugehörigen Indikator
Identifikation:
- Nicht jedes Messmodell ist identifiziert. Für die CFA gilt genauso wie für das Pfadmodell die t-Rule
- Zusätzlich muss jedoch der latenten Variable eine Metrik (Maßeinheit, in der sie gemessen wird)
zugewiesen werden
geschieht über Modelleinschränkungen (Parameter werden fixiert)
2
2 Arten einer latenten Variable eine Metrik zuzuweisen können
1. Ladung eines Referenzindikators auf 1 setzen, „marker variable“
2. Varianz der latenten Variable auf 1 setzen, „fixed factor“
t-rule hier:
p=3
Freie Parameter = 6
6 < p*(p+1)/2
6 < 3*2
6 = 6 -> Modell ist exakt identifiziert… Wir sollten den Modellfit nicht interpretieren.
Nach welchem Kriterium werden Pfadmodelle, CFA und SEM geschätzt?
Schätzmethode
Die Parameter sollen so geschätzt werden, dass modellimplizierte Kovarianzmatrix die empirische
Kovarianzmatrix wiedergibt
Abweichung der modellimplizierten Matrix von der empirischen Matrix: χ2-Wert
großes χ2= schlechtes Modell
Dies geschieht über eine Diskriminanzfunktion, die minimiert werden soll.
Typischerweise mittels Maximum Liklihood-Schätzung.
Modellfit überprüfen: Chi-Quadrat-Wert sollte klein und nicht signifikant sein
3
Koeffizienten R2, β, λ interpretieren können
Pfadanalyse:
Kausalpfeile: implizieren eine angenommene Kausalrichtung
Ein sign. Gewicht bedeutet nicht, dass die Kausalrichtung stimmt!
Ebenso bedeutet ein guter Modellfit nicht, dass die Kausalrichtung stimmt!
Hier: Die Ausprägung der direkt beobachteten Variable „AV“ wird verursacht durch die direkt
beobachtete Variable „UV“. Das stand. β1 zeigt wie stark der Zusammenhang ist in SD. Das
unstandardisierte β1 beschreibt den Zusammenhang in der Metrik der beiden Variablen „Wenn UV
um eine Einheit hoch geht, dann geht AV um β1 Einheiten…. hoch/runter“. Die Vorhersage ist aber
nicht perfekt, die Werte in „AV“ werden außerdem noch durch einen nicht beobachteten Faktor
beeinflusst (dem Vorhersagefehler=Residuum).
CFA:
Statt β schreiben wir λ
- Die stand. λ sind die Faktorladungen
- Die R²te zu X1, X2, Xk … sind die Kommunalitäten
Modell aus einer Textaufgabe heraus als SEM aufmalen können
Können Unterschiede zwischen Menschen hinsichtlich ihres wahrgenommenen Stress (AV) durch
folgende Variablen erklärt werden?
1. Wahrgenommene Kontrolle über internale States (PCOISS)
2. Wahrgenommene Selbstwirksamkeit? (mast)
Für jede der drei Variablen liegen je 3 Indikatoren sogenannte Parcells vor (z.B. Parc_pstress1,
Parc_pstress2, Parc_pstress3) .
4
66%= sehr guter Wert!
r2 von der Variable angucken, die erklärt werden soll:
Wie gut kann ich die Varianz von pstress aufklären?
Vorzeichen angucken!
wenn man mastery um 1 erhöht, sinkt stress um .55 SD
5
Vorlesung 2
Parcels
aggregierte Items, typischerweise ein Summen- oder Mittelwert
Warum bildet man Parcels?
um SEM übersichtlicher zu machen
einzelne Items sind oft nicht normalverteilt, Parcels oft -> Verteilungsannahmen werden nicht so oft
verletzt
Modellfit wird besser
Werden nach folgenden Kriterien gebildet:
randomisiert, nach Statistik geleitet
gleichmäßig anhand von Ladungen
inhaltliche Zuweisung
Fit-Indices
Unterschied zwischen den 3 Arten von Fit-Indices konzeptuell verstanden haben
Konkrete Werte für TLI, CFI und RSEA bewerten können, bzw. bei Vergleich von zwei
Modellen mittels AIC/BIC sagen können, welches das bessere ist
beschreiben, wie gut unser Modell die empirische Kovarianzmatrix reproduzieren kann
χ²-Test -> Wie schlecht passt das Modell?
Inkrementelle Fit-Indices
folgen derselben Logik wie R²
sollen über .90 liegen; sehr gut, wenn über .95
NFI:
Obsolet, da besser, je komplexer das Modell, widerspricht dem Parsimonitätsprinzip
benutzt man nicht mehr
TLI wie NFI, aber die x²-Werte werden noch durch die Freiheitsgrade des jeweiligen Modells geteilt
CFI wie NFI, aber es werden von den x²-Werten immer die Freiheitsgrade des spezifizierten Modells
abgezogen
-> bei TLI und CFI werden die Modelle bestraft, je komplexer sie werden
Absolut Fit-Indices
fragen, wie weit bin ich von bestmöglichen Modell entfernt?
badness-Faktor
hohe Werte = schlechtes Modell
RMSEA
.01 excellent, .05 good, .08 mittelmäßig
es kann ein Konfidenzintervall gebildet werden
PCLOSE soll > .05 sein, also nicht signifikant, dann gut!
hier signifikant, kein Close-Fit
6
Comparative Fit-Indices
vergleichen zwei Modelle miteinander und sind auch nur im direkten Vergleich interpretierbar
AIC
k*(k+1)-2df ist immer das doppelte der Anzahl freier Parameter
bestraft Modell mit 2 x²- Punkten pro freiem Parameter
nicht so konservativ
wenn ich komplexes Modell habe, diesen nehmen
k = Anzahl der Variablen im Modell
BIC
2 „Strafpunkte“ werden noch mit dem natürlichen Logarithmus der Stichprobengröße gewichtet
konservativer
bevorzugt eher sparsame Modelle
Können nicht direkt interpretiert werden, sondern es können nur AIC&BIC von Modellen verglichen
werden. Je kleiner der Index, desto besser das Modell.
Je komplexer Modell ist, desto besser wird x²-Wert (ganz automatisch). Aus diesem Grund werden
hier die komplexeren Modelle „bestraft“.
am besten beide Indizes berichten
Ursachen schlechter Fit-Indices
- Modell passt nicht
- wichtige Kovariaten wurden nicht berücksichtigt
- Je besser das Nullmodell auf die Daten passt, desto schlechter fallen inkrementelle Fit-Indices aus
- Viele Indikatoren in den Messmodellen
- Verletzung von Voraussetzungen kennen und wissen, was man tun kann, wenn sie gebrochen
sind:
1. Korrekte Modellspezifikation
2. Modellidentifikation (mehr Infos haben, als wir schätzen müssen: t-rule, latente Variablen
brauchen Metrik)
3. Multivariate Normalverteilung
- Mardias Test (sehr konservativ)
- Mahalanobisdistanzen in SPSS ausgeben lassen und mit pp-Plot / qq-Polt auswerten
- Wenn gebrochen: Robuster Schätzer oder Bootstrap
4. Homoskedastizität (siehe Regression), Daten sollen gleichmäßig um Vorhersagegerade verteilt
sein
5. Unabhängigkeit der Beobachtungseinheiten bzw. wenn diese nicht gegeben ist: „Multilevel
SEM“
7
Longitudinale Modelle
= Längsschnittdaten
Longitudinale Daten sind spezielle Repeated Measures Daten, bei denen die Zielgröße(n) für die
Subjekte mehrfach in zeitlicher Abfolge gemessen wurde(n)
→ z.B. mehrfache Blutdruckmessungen an mehreren Patienten im Zeitraum eines Jahres
Klassisches Nullmodell nicht plausibel (Annahme: Variable korreliert über die Zeit nicht mit sich
selbst)
kann hier nicht stimmen, da Werte von derselben Person oft miteinander korrelieren
-> anderes Nullmodell zur Berechnung inkrementeller Fit-Indices
Welche Art Fit-Indices sollte ich immer nur mit Vorsicht bei längsschnittlichen Daten
betrachten?
ausschließlich Betrachtung von RMSEA und Modellverbesserungen durch x²-Test -> keine
Interpretation von inkrementellen Fit-Indices
Logik der Modellvergleiche verstanden haben (vom uneingeschränkten Modell zum
eingeschränkten) beginnend bei den Messmodellen, erst dann bei dem Strukturmodell
Zeitpunkte
Im Ausgangsmodell werden zunächst Annahmen über die Messmodelle getestet.
Wir beginnen mit dem uneingeschränkten Modell
und führen nach und nach Modelleinschränkungen in den Messmodellen ein
und zwar so lange wie sich das Modell dadurch nicht sign. verschlechtert.
1. Messinvarianz
2. Homogenität der Testhälften
Erst danach beginnen wir mit der Modellierung des Strukturmodells. Auch hier fangen wir beim
allgemeinsten an und tasten uns in Richtung eingeschränktere Modelle vor.
8
Messinvarianz
Sind die Indikatoren über die Zeit gleich mit der latenten Variable verknüpft?
3 Arten von Invarianz über Zeit:
- Schwach (Metrik und Ladungen sollen sich nicht ändern)
- Stark (s.o. + der Intercept der Indikatoren soll sich nicht ändern/MW sollen gleich sein)
- Strikt (Residuen sollen gleich sein, behandeln wir nicht)
Schwache Messinvarianz
Starke Messinvarianz
p-Wert=.638 -> ist mein eingeschränktes Modell schlechter als
vorher? Nein, wird nicht signifikant schlechter.
p>.05-> wir dürfen schwaches Messniveau annehmen
CMIN = χ2 Wert
Restriktionen: L1=L2=L3=L4,
m11=m21=m31=m41
m12=m22=m32=m42
Hoher χ2-Wert, p<.05 -> Modell ist schlechter als
Ausgangsmodell, wenn MW gleich
Hoher χ2-Wert, p<.05 -> Modell ist schlechter als Modell mit
schwacher Messinvarianz, wenn MW gleich
9
Homogenität der Testhälften
Sind die Testhälften innerhalb der Testzeitpunkte gleich?
Folgen die Daten nur einem kongenerischen (uneingeschränkt), essentiell-tauäquivalenten
(Ladungen der Testhälften sind gleich) oder sogar tau-äquivalenten Messmodell (Ladungen und
Mittelwerte der Testhälften sind gleich)?
Beide Testhälften sind innerhalb eines Zeitpunktes gleich
Mehr Freiheitsgrade -> brauche weniger Informationen -> t-rule->
aber modellfit wird schlechter
Nachdem wir die Messmodelle geklärt haben, können wir nun die Messmodelle so lassen wie sie
sind.
Bisher waren Korrelationen zwischen allen Faktoren erlaubt. Das nächsteingeschränktere Modell
wäre ein Latentes Autoregressives Modell zweiter Ordnung.
T1 hat auf T4 keine Auswirkungen
Restriktionen wie vorher
10
Vorlesung 3
Was ist der Unterschied zwischen einem rein autoregressiven Modell, einem Latent-StateTrait und einem Latent-State-Trait mit autoregressiver Struktur?
Latent-State-Trait
Trait: kommt dazu zu allen Zeitpunkten, z.B. versch. Level an
Lebenszufriedenheit pro Person oder Persönlichkeitseigenschaften wie
Extraversion
State
Grundidee Latent-State-Trait-Modell



Modell der Veränderungsmessung
In ihm wird ein beobachteter Wert in einen latenten Traitfaktorwert, einen latenten
messgelegenheitsspezifischen Abweichungswert und einen Fehlerwert zerlegt
Die latenten Traitvariablen kennzeichnen zeitstabile Bedingungen beobachtbarer
Unterscheide, wohingegen die latenten messgelegenheitsspezifischen Variablen
Bedingungen beobachtbarer Unterschiede repräsentieren, die weder auf den Messfehler
noch auf die zeitstabilen Bedingungen zurückgeführt werden können
Autoregressiv:
Zeitlich relativ stabile States, in dem Sinne, dass die aktuelle Stimmung immer die kommende
beeinflusst. Bei Second Order sogar über 2 Zeitpunkte hinaus.
Bei starker Messinvarianz sind sogar die Mittelwerte stabil. In unserem Beispiel nicht, also die
Intercepts/ Mittelwerte verändern sich über die Zeit.
Latent-State-Trait (ohne AR1):
States zeitlich relativ stabil, da Personen ein ähnlich hohes Level an Stimmungen halten. Manche sind
halt tendenziell immer etwas glücklicher als andere und umgekehrt.
Abweichungen zu einem Zeitpunkt von diesem „Stimmungslevel“ sind rein zufällig.
11
Latent-State-Trait (mit AR1):
States relativ stabil, weil jede Person für sich ein ähnlich hohes Level an Stimmungen hält. Manche
sind halt tendenziell immer etwas glücklicher als andere und umgekehrt.
Personen schwanken aber systematisch um ihr mittleres Stimmungslevel in der Weise, dass die
aktuelle Stimmung die des Folgetages beeinflusst.
Was versteht man unter einem autoregressiven Effekt?

regressiver Effekt, den ein Merkmal, das zu einem früheren Messzeitpunkt gemessen wurde,
auf das selbe Merkmale hat, das zu einem späteren Messzeitpunkt erneut gemessen wurde
Was gibt die Ordnung eines autoregressiven Modells an?

In einem autoregressiven Modell k-ter Ordnung wirken sich alle Messungen bis zu dem k-ten
Messzeitpunkt vor der Messung in direkter Weise auf Merkmalsunterschiede aus.
Latent Change
Wann brauche ich ein latent change-Modell?
Einem einfachen Latent Change Modell liegt i.d.R. dieselbe Forschungsfrage zu Grunde wie
bei einem T-Test für abhängige Stichproben (T1-T2 Hat sich Mittelwert verändert?)
Es geht also um Mittelwertsveränderung, aber auf latenter Ebene. (In den vorigen Modellen
ging es um Stabilitäten)
Messfehler ist nicht mit drin
Nehmen wir an: a1=5, a2=10, L1=1
Karl hat einen Wert von 5 auf T1. Für Test1_T1 würden wir einen Wert
von 10 vorhersagen, für Test2_T1 einen von 15.
Für T2 würden zunächst auch einen Wert von 4 vorhersagen (ohne Change
zu berücksichtigen). Folglich würden wir für Test1_T2 einen Wert von 10 und
für Test2_T2 einen Wert von 15 vorhersagen. (Also keine Veränderung auf
den Indikatoren)
T2=1xT1&1xChange
Jetzt hat Karl aber einen Wert von 15 auf Test 1 und 20 auf Test 2 zu T2. Wir
haben seine Werte jeweils um 5 Punkte unterschätzt. Damit die Gleichung
wieder passt sollte Karl auf Change einen Wert von 5 haben (Für Test 1 wäre
dann die Vorhersage 10+5=19 und für Test 2 15+5=20).
In Change stecken also die Veränderungen. Hohe Varianz bedeutet: Viel
Veränderung. Ist der Mittelwert von 0 verschieden dann bedeutet das, dass
im Mittel die Werte steigen (positiver MW) oder sinken (negativer MW).
12
Steigt positiv um 9.5, Veränderung signifikant
Vorlesung 4
Beispiel Strukturgleichungsmodell aus Hypothesen aufmalen
a) Ein niedriges Fähig.Selbstkonzept bzgl. Mathe und/oder PCs/SPSS macht, dass man mehr Angst vor
Statistik hat.
b) Angst vor Statistik reduziert die Motivation etwas aus der Veranstaltung dauerhaft mitnehmen zu
wollen
c) Die Selbstkonzepte haben neben ihrem indirekten Effekt über die Angst vor Statistik auch noch
einen direkten Effekt auf die Motivation
Nicht vergessen, alle Residuen einzuzeichnen und die Metrik zuzuweisen (Ladungen der Residuen
sowie Variablen auf Parcels) auf 1
Mathe & PC haben keinen eigenen Fehler
13
deuten der Ergebnisse:
FSK Mathe & PC sind in der falschen Richtung -> hohe Werte= schlechtes Selbstkonzept
in Mathe schlecht -> hohe Motivation -> direkter Effekt kurios
PC könnte man rausnehmen, weil Ladungen niedrig sind
r2 soll zwischen 0 und 1 sein -> würde hier 219% Varianzaufklärung bedeuten -> Heywoodcase ->
Varianz auf 1 setzen
Modellgüte bewerten
chi-square nicht signifikant-> Modell ist nicht schlechter als das saturierte Modell
TLI & CFI gut
RMSEA zwischen gut und mittel, gut wäre bis .05
14
Welches Modell ist am besten?
gucken, welches Modell den kleinsten Wert hat
lassen wir den direkten Effekt weg, ist unser Modell nicht sign. schlechter
CMIN: so viele Punkte weicht es ab von default model
>.05 nicht signifikant schlechter
<.05 signifikant schlechter, nicht nehmen
nach Sparsamkeitsprinzip nimmt man das Modell, das weniger hat -> eingeschränkteres Modell
je mehr Freiheitsgrade, desto eingeschränkter -> sparsameres Modell
Noch ein Beispiel, Längsschnittdaten
Robin erforscht emotionales Erleben während Teamtrainings im Kletterpark und den Effekt auf das
Feedback der Schüler. Er sammelt von 200 Trainings Daten. Er misst immer den Begeisterungsfaktor
der Schüler (mit dem AwE) zu jeder Trainingseinheit (insgesamt gibt es vier) und kopiert sich den
Feedbackbogen des Lehrers.
Robin glaubt, dass die erste Übung entscheidend ist. Löst die erste Übung viel Begeisterung aus, dann
bleibt dieser Effekt relativ stabil.
Und zwar in der Weise, dass die aktuelle Begeisterung die Begeisterung bei der kommenden
bestimmt.
Robin glaubt aber auch, dass das Feedback vor allem von dem Begeisterungsfaktor bei der ersten
Übung als auch dem der Letzten abhängt. Die dazwischen spielen keinerlei Rolle.
Robin glaubt, dass der Begeisterungsfaktor beim ersten Training vor allem von der Fähigkeit des
Trainers abhängt.
Modell:
15
Ergebnisse:
Wie gut können Unterschiede im Feedback erklärt werden durch dieses Modell? 83%
Varianzaufklärung
Modellgüte bewerten
chi-square nicht signifikant-> Modell ist nicht schlechter als das saturierte Modell
TLI & CFI gut
RMSEA zwischen gut und mittel, gut wäre bis .05
16
Vorlesung 5
Loglineare Modelle
Zusammenhang von mehreren kategorialen Variablen gleichzeitig untersuchen (vorher
waren nur Unterschiede zwischen 2 möglich)
-> loglineare Modelle zur Analyse mehrdimensionaler Kontingenztabellen
3 mögliche Notationen:
multiplikatives Modell
additives Modell
Modell mit Referenzkategorie
Beispiel für 3dimensionale Kontingenztabelle:
Odds-Ratio
Odds = Chance
(Beispiel: Die Chance, dass man als Mann Karottenhosen präferiert ist 2:28 (30-2 Hosen, die sie
tragen) bzw. 1:14. Achtung: Die Wahrscheinlichkeit wäre dagegen 2/30)
Odds-Ratio = Chancenverhältnis
(Beispiel: Die Chance, dass man als Mann Karottenhosen präferiert ist 1:14. Bei Frauen 8:62, gekürzt
4:31. Das Odds Ratio wäre (1:14)/(4:31)≈0,55 (Die Chance, dass Karottenhosen bevorzugt werden, ist
bei Männern grob halb so groß wie bei Frauen bzw. bei Frauen etwa grob doppelt so hoch
(4:31)/(1:14) ≈1,8; Man kann statt dessen auch einfach den Kehrwert nehmen: 1/0,55 ≈ 1,8)
17
Wie berechnet sich grob der χ2-Wert? Bzw. was repräsentiert er?
χ²-Anpassungstest
Die Teststatistik: Über alle Zellen aufsummieren: (Abweichung²/erwartete Häufigkeit)
Beispieldaten, erstmal zweidimensional:
Multiplikatives Modell
Ziel:
mehr als 2 Dimensionen werden modelliert
man kriegt Koeffizienten im Randbereich
kann Effektgrößen vergleichen
Berechnung geometrisches Mittel über alle Zellen:
Für jede Faktorstufe:
18
Haupteffekte:
Bei nur 2 Stufen ergibt sich immer der Kehrwert der anderen Stufe.
Werte > 1 zeigen, dass hier die Häufigkeiten größer sind als bei einer
angenommen Gleichverteilung innerhalb eines Faktors.
Werte < 1, dass sie kleiner sind als bei einer angenommen Gleichverteilung.
Herrchen/Frauchen entscheiden sich also öfter für affektive Belohnung
(1,68). Ungefähr gleich viele Tiere können tanzen, wie Tiere nicht tanzen
können (halbe:halbe) mit leichter Tendenz, dass es ein paar mehr können
(1.06).
Interaktion:
Drückt die Abweichung des beobachteten Wertes in Zelle 1,1 aus, von der Erwartung, wenn wir
annehmen würden, dass sich die beiden Haupteffekte einfach addieren. Nehmen wir den Wert hoch
dem Produkt der Anzahl der Stufen der beteiligten Faktoren erhalten wir das passende Odds-Ratio
(+Rundungsfehler): 0,764 = 0,33
Man liest es immer so: das was oben steht und das was als erstes steht -> darauf bezieht sich das
ausgerechnete OR
Die Chance, dass ein Tier nicht tanzen kann, wenn man es mit Futter belohnt hat, ist also ungefähr
ein Drittel (0,33) gegenüber den Tieren, die mit affektiven Reaktionen belohnt wurden.
Andersrum ausgedrückt: Die Chance, dass ein Tier tanzen kann, ist 3 mal so hoch, wenn man es mit
Futter belohnt hat, als wenn man es mit affektiven Reaktionen belohnt hat.
Additives Modell
einfach logarithmieren
Vorteile Interpretation:
Koeffizienten sind einfacher zu interpretieren
hier bedeutet 0 kein Effekt, „+“ positiver Effekt, „-“ negativer Effekt
Interaktion:
Um wie viel weicht die beobachtete logarithmierte Häufigkeit von der erwarteten logarithmierten
Häufigkeit ab, wenn man annimmt, dass ein rein additiver Effekt der Haupteffekte vorliegt?
19
Additives Modell mit Referenzkategorie
SPSS wählt für jeden Faktor eine Referenzkategorie und zwar immer die höchste Stufe
(dass, was auf 1 kodiert ist)!
Referenzzelle ist dann die, wo sich alles kreuzt
Statt der Abweichungen von der mittleren Häufigkeit werden nun die Abweichungen von der
Referenzkategorie oder Referenzzelle berechnet.
Interaktion
Constant: logarithmierte Häufigkeit von Zelle 2,2. Der p-Wert zeigt lediglich, dass der Wert sign. von
Null abweicht.
[Training = 0]: Es wählen sign. weniger Frauchen/Herrchen Essen als Belohnung, verglichen mit der
Referenzkategorie (innerhalb der Gruppe der Tiere, die tanzen können).
20
[Dance = 0]: Es gibt sign. mehr Tiere, die nicht tanzen, als es Tiere gibt, die tanzen - innerhalb der
Gruppe der Tiere, die affektiv belohnt wurden.
[Training=0]*[Dance=0]: Gibt man Tieren Essen als Belohnung, können sign. weniger Tiere nicht
tanzen als man es durch die rein additiven Effekte erwarten würde.
Vorlesung 6
Loglinear-Modellvergleiche
Einzelne Effekte können auf 0 gesetzt werden. Bedeutet: dieser Effekt existiert nicht.
1. Behält man einen Effekt im Modell, dann müssen auch alle anderen Effekte niedrigerer Ordnung
erhalten bleiben.
2. Ist ein Modell ein Spezialfall eines vorherigen Modells, dann handelt es sich um hierarchische
Modelle. Diese können mit x²-Differenztest oder Logliklihood- Quotiententest verglichen werden.
auf 0
A*B*C = 3. Ordnung
A*B usw. = 2. Ordnung
A = 1. Ordnung
auf 0
C fehlt, sollte aber drin sein,
weil es oben drin ist
geht nicht,
weil A*B
wieder
auftaucht
Wie bei Strukturgleichungsmodell:
x² (Modellvergleich) = x² (eingeschränktes Modell) – x² (weniger eingeschränktes Modell)
df (Modellvergleich) = df (eingeschränktes Modell) – df( weniger eingeschränktes Modell)
Benutze ich Pearson x² für einen Modellvergleich, sprechen manche von einem x²-Differenztest.
Benutze ich liklihood-ratio, dann sprechen manche von dem Liklihoodquotiententest. SPSS benutzt
intern letzteren.
Erhebungsschema
Multinomial: Das N wird vor der Untersuchung festgelegt.
Beispiel: Wir sammeln ab jetzt so lange VPs bis wir 200 haben!
Multinomial-Produkt: Das N und die Verteilung eines Faktors wird festgelegt.
Beispiel: Wir sammeln jetzt 200 VPs, 100 Frauen und 100 Männer! Nicht in SPSS
implementiert, nicht prüfungsrelevant
21
Poisson: Weder N noch irgendeine Randverteilung wird festgelegt.
Beispiel: Okay, wir starten morgen früh um 8:00 mit dem VP sammeln und schauen wie viele
VPs wir bis 20:00 zusammenbekommen.
Constant= Referenzzelle
Animal
0=Katzen
1=Hunde
Training
0=Essen
1=affektiv
Dance
0=no
1=yes
[Animal=0]
Katzen sind häufiger als Hunde (innerhalb Training=1 und Dance=1)
[Training=0]
Es wird seltener mit Essen belohnt (n.s.) (innerhalb Animal=1 und Dance=1)
[Dance=0]
Nur der kleinere Teil der Tiere tanzt nicht (innerhalb Training=1 und Animal=1)
[Animal=0]*[Training=0] Verglichen mit Hunden, werden Katzen seltener mit Essen belohnt (n.s.)
(innerhalb Dance=1)
[Training=0]*[Dance=0] Tiere, die mit Essen belohnt werden, können öfter nicht tanzen (n.s.)
(innerhalb Animal=1)
[Animal=0]*[Dance=0]
Training=1)
Verglichen mit Hunden, können Katzen öfter nicht tanzen (innerhalb
[Animal=0]*[Training=0]*[Dance=0] Verglichen mit Hunden, können Katzen seltener nicht tanzen,
wenn man ihnen essen als Belohnung gibt
Beobachtete und erwartete Häufigkeiten sind gleich, da saturiertes Modell
Dog, Affection as reward & Yes = Referenzkategorie, weil alles mit 1 kodiert
22
3fach-Interaktion sichtbar, moderiert durch Katze/Hund
Katzen sollte man eher mit Essen belohnen, Hunde eher mit Affekt
23
Anderes Beispiel
Psychotherapie (0=ja, 1=nein), Schlafstörungen (0=ja, 1=nein)
Konstante: logarithmierte Häufigkeit der Referenzzelle (1) keine Psychotherapie und (1) keine
Schlafstörungen ist signifikant von 0 verschieden.
PsyTh: (in der Kategorie (1) keine Schlafstörungen): in der Kategorie (0) Psychotherapie gibt es
signifikant weniger Personen als in der Kategorie (1) keine Psychotherapie.
Schlafst: (in der Kategorie (1) keine Psychotherapie): in der Kategorie (0) Schlafstörungen gibt es
signifikant weniger Personen als in der Kategorie (1) keine Schlafstörungen.
PsyTh*Schlafst: In der Zelle (0) Psychotherapie und (0) Schlafstörungen gibt es signifikant mehr
Personen als man durch die rein additiven Effekte erwarten würde!
In der Kategorie keine Schlafstörungen gibt es signifikant weniger Personen mit Psychotherapie,
OR = -2.434, in der Kategorie keine Psychotherapie gibt es signifikant weniger Personen mit
Schlafstörungen, OR = -.865, und es gibt signifikant mehr Personen mit Psychotherapie und mit
Schlafstörungen als man es durch die rein additiven Effekte erwarten würde, OR = 1.895.
2x2x2-Design
K=1+: Alle Haupteffekte + Zweifachinteraktionen + dreifach sind zusammen statistisch bedeutsam
K=2+: Betrachtet man alle Interaktionen gemeinsam, so sind diese immer noch bedeutsam.
K=3+: Betrachtet man nur die Dreifachinteraktionen, dann sind diese (gibt ja nur eine) nicht
bedeutsam (p=.058).
24
K=1 Die Haupteffekte sind zusammen statistisch nicht bedeutsam
K=2 Die Zweifachinteraktionen sind zusammen bedeutsam
K=3 Die Dreifachinteraktionen sind zusammen (wieder gibt nur eine) nicht bedeutsam
Step 0: Entferne ich die Dreifachinteraktion, dann ist das neue Modell nicht sign. schlechter als das
saturierte Modell. -> Wir schließen eine Dreifachinteraktion aus und gehen weiter:
Step 1: Prüfen, welche zweifache Interaktion ausgeschlossen werden kann:
Raucher*Rentenbegehren hat den kleinen x²-Wert und ist nicht sign. Fliegt also raus…
Step2: Wir prüfen die anderen beiden zweifachen Interaktionen nochmals, aber ohne das
Raucher*Rentenbegehren noch im Modell sind. Keine der beiden Interaktionen kann ausgeschlossen
werden und verbleiben im Modell
Step 3: Unser finales Modell weicht 5,739 x²-Werte (bestimmt über Logliklihood) vom saturierten
Modell ab.
Dieser Unterschied ist nicht sign.
Kleines Fazit loglinearer Modelle


Mit loglinearen Modellen lassen sich mehrdimensionale Kontingenztabellen analysieren
Die Notation mit Referenzkategorie macht es jedoch schwer die Ergebnisse alleine anhand
der Koeffizienten zu interpretieren. Eine begleitende graphische Analyse wird daher
empfohlen
25
Vorlesung 7
Logistische Regression
äquivalent einer linearen Regression bei dichotomer AV (intervallskaliert oder dummykodiert =
lineare/ multiple Regression)
Ansatz kann aber auch auf mehrkategoriale AVs erweitert werden
Beispiel: hat die Körpergröße was damit zu tun, wie viele Basketballkörbe ich werfe?
Bedeutung von b0 (bei b1≠0)
Formel wie Regressionsgleichung:
b0= Konstante
Bedeutung von b0 (bei b1=0)
es ist egal, wie groß-> immer gleiche Chance
26
Bedeutung von b1
je höher Prädiktor, desto wahrscheinlicher, dass ich 1 erreiche (negativer Zshg.)
Vorzeichen von den Regressionsgewichten kann ich genauso interpretieren wie bei der linearen
Regression
allerdings sagt die Vorhersagegleichung jetzt nur die Logits vorher, die kann man nicht gut
interpretieren
Ich kann sie aber durch exp so umformen, dass sich Odd`s Ratios ergeben
Bedeutung von eb0 und eb1
oben Wahrscheinlichkeit
unten Gegenwahrscheinlichkeit
Sind die Odds bzw. Chancen zur Kategorie 1 der abhängigen Variable zu gehören
27
Odd`s Ratios für intervallskalierte Variablen interpretiere ich so:
„Pro Einheit im Prädiktor steigt die Chance, zur Kategorie 1 der abhängigen Variable zu gehören auf
das x-fache“
Wenn z.B. x=2, dann verdoppelt sich die Chance
wenn x=0,5, dann halbiert sich die Chance
Koeffizienten im Output
ist der Wert von 1
verschieden? Ja
bei 1 kein Effekt
Wald Test: hat der Prädiktor einen signifikanten Einfluss
auf die abhängige Variable?
e b1
pro Trainingsstd. halbiert
sich die WSK sich zu
verletzen
e b0 = Basis-WSK, 200 mal höher
Chance, sich bei Kampfsport zu verletzen bei 0
Trainingsstd. 200mal höher
bei 1= 50/50
Anderes Beispiel
Eine Krankenkasse möchte die Wirksamkeit einer Suchttherapie evaluieren: Dafür erfasst sie bei
Personen, ob in den vergangenen Jahren eine Therapie gemacht wurde (0 = nein, 1 = ja), ob noch
immer eine Suchterkrankung vorliegt, d.h. die Person geheilt ist oder nicht (0 = nicht geheilt, 1=
geheilt) und ob es im vergangenen Jahr einen Rückfall gab (0 = ja, 1 = nein). Außerdem wurde die
Motivation keinen Alkohol mehr zu trinken, die kognitive Fähigkeit und die generelle Ängstlichkeit
erfasst, sowie die Anzahl ebenfalls suchtkranker Freunde.
Spielt für einen Rückfall das Ausmaß kognitiver Fähigkeiten, Motivation und Anzahl der Freunde mit
einer Suchterkrankung eine Rolle?
28
Eine binäre logistische Regression mit kognitiven Fähigkeiten, Motivation keinen Alkohol mehr zu
trinken und Anzahl suchtkranker Freunde als metrischen Prädiktoren und Rückfall (ja vs. nein) als
abhängiger Variablen zeigte einen signifikanten Effekt der kognitiven Fähigkeiten, b = -.22, Wald =
6.97, p < .01, und der Anzahl suchtkranker Freunde, b = .07, Wald = 8.64, p < .01, aber keinen
signifikanten Effekt der Motivation, b = -.42, Wald = 1.65, ns, d .h.


je mehr kognitive Fähigkeiten, desto geringer die Chance eines Rückfalls (Odds Ratio = .80:
für jeden Punkt mehr auf der Skala kognitive Fähigkeiten, steigt die Chance um das 0.80fache, sie sinkt also!) und
je mehr suchtkranke Freunde, desto höher die Chance eines Rückfalls (Odds Ratio = 1.07:
für jeden suchtkranken Freund mehr, steigt die Chance um das 1.07-fache).
Spielt es für die Heilung eine Rolle, ob eine Therapie gemacht wurde und die Höhe der Motivation
keinen Alkohol mehr zu trinken?
Eine binäre logistische Regression mit Therapie als dichotomen und Motivation keinen Alkohol mehr
zu trinken als metrischem Prädiktor und Heilung (ja vs. nein) als abhängiger Variablen zeigte einen
signifikanten Effekt der Therapie, b = 1.23, Wald = 8.85, p < .01, aber keinen signifikanten Effekt der
Motivation, b = -.01, Wald = .002, ns, d .h. die Chance nach 5 Jahren geheilt zu sein ist nach einer
Therapie ca. dreieinhalb mal so groß wie ohne Therapie (Odds Ratio = 3.43), unabhängig von der
Motivation.
29
Vorlesung 8
Anderes Beispiel logistische Regression
Suizidrisiko (dichotom)
Je älter, desto größer Chance sich zu suizidieren (0.71)
emotionales Ventil verringert Suizidwsk. (-0.34)
R = first-order Korrelationen (phi oder Produkt Moment)
B = unsere Regressionsgewichte:
(+) Risiko nimmt durch Erhöhung des Prädiktors zu
(-) Risiko nimmt durch Erhöhung des Prädiktors ab
Odd`s Ratio aus B: exponieren, damit man sie besser deuten kann
Interpretationen von Koeffizienten bei Dummykodierung
Für getrennte oder geschiedene Frauen (Dummy 1) ist die Chance als suizidal eingestuft zu
werden um den Faktor 1,2 höher als in der Referenzkategorie (also in Partnerschaft lebende
Frauen) – Dieser Effekt ist nicht signifikant (p=.786)
30
Für in Partnerschaft lebende Frauen (Dummy 1) ist die Chance als suizidal eingestuft zu werden 1,747
mal so hoch wie in der Referenzgruppe (Singles). Der Effekt ist nicht sign. (p=.588) .
Für getrennte oder geschiedene ist die Chance 2 mal so hoch wie in der Referenzkategorie (Singles) –
Der Effekt ist nicht signifikant (p=.535).
Interpretation von Koeffizienten bei intervallskalierten Prädiktoren
Pro Altersjahr verdoppelt sich die Chance suizidal eingestuft zu werden. Dieser Effekt ist sign.
(p=.032) .
Vorsicht: Hier wird ein linearer Effekt auf die Logits angenommen… Das ist hier okay, da nur
die Jahre 14 bis 18 untersucht werden und man für diesen Zeitraum auch Linearität
annehmen kann. Wir wissen jedoch, dass das Selbstmordrisiko auch irgendwann wieder
abflacht. (quadratische Logit-Funktion).
31
Odd`s Ratio, Probleme Interpretation
Negative Odds gibt es nicht
zwischen 0 und 1 negativer Effekt
positiver Effekt kann bis ins unendliche gehen
negative mit positiven vergleichen: Kehrwert des negativen-> vergleichen
OR kleiner 1 und größer 1 lassen sich nicht direkt vergleichen.
Man kann jedoch immer den Kehrwert nehmen, um die Größe des Effektes zu vergleichen.
Kehrwerte bilden
,001= 1/1000 -> 1000
,01= 1/100 -> 100
,05 = 5/100 -> 100/5-> 20
,1 = 1/10 -> 10
,2 = 2/10 -> 5
,25 =25/10 -> 0,4
,5 = 5/10 -> 2
1 -> 1
1,5 = 15/10 -> 10/15-> 2/3
2 -> 1/2
4 ->1/4
5 ->1/5
10 ->1/10
20 -> 1/20
100 -> 1/100
1000 -> 1/1000
Relative Bedeutung von Prädiktoren vergleichen
kategoriale Prädiktoren
„marital status“ hat ein Odds Ratio von 1,2. Ist man getrennt/geschieden, ist die Chance als
suizidal (Y=1) eingestuft zu werden also 1,2 mal so groß wie in der Referenzgruppe (in
Beziehung).
Nehmen wir an, wir wollen „marital status“ mit einem anderen (fiktiven) kategorialen
Prädiktor vergleichen, z.B. „Intervention“ mit der Referenzkategorie „keine Intervention“.
Nehmen wir an „Intervention“ hat ein Odds-Ratio von 0,5. Dann ist die Chance als suizidal
(Y=1) eingestuft zu werden nur halb so groß, wenn man in der Interventionsgruppe ist.
Wollen wir die Odds vergleichen, sollten wir den Kehrwert bilden. Die Interpretation kehrt
32
sich dann jedoch um: Ist man in der Interventionsgruppe, dann ist die Chance 2 mal so groß
nicht-suizidal (Y=0) eingestuft zu werden.
Odds-Ratio sind also gut geeignet, um kategoriale Prädiktoren miteinander zu vergleichen.
- intervallskalierte Prädiktoren
„Alter“ hatte ein Odds-Ratio von ungefähr 2, „vicarious listening“ von 0,710.
Pro Jahr Alter verdoppelt sich also die Chance als suizidal (Y=1) eingestuft zu werden.
Um es mit „vicarious listening“ vergleichen zu können, sollten wir wieder den Kehrwert
nehmen, die Interpretation dreht sich damit aber auch um: Pro Punkt auf der „vicarious
listening“ Skala steigt die Chance mal 1,41 als nicht suizidal (Y=0) eingestuft zu werden.
Ein Problem bleibt aber: Wir vergleichen den Effekt von einem Jahr mit dem Effekt von
einem Punkt auf der „vicarious“ Skala. Während Alter nur von 14,5 bis 18,5 streut (mit
sd=.95), streut „vicarious listening“ von 2 bis 8 (sd=1,82).
Odds-Ratios sind also nur bedingt geeignet, um den Einfluss von intervallskalierten
Prädiktoren mit anderen Prädiktoren zu vergleichen:
a) Bei gleicher Skalierung direkt vergleichbar
b) Bei ungleicher Skalierung in der Interpretation berücksichtigen
c) Oder Skalierung mittels Transformation anpassen.
Nullmodell, Modellschätzung und Modellfit
Reihenfolge der Berechnung
1. Berechnung des Nullmodells (keine Prädiktoren, schlechtmöglichst)
2. Berechnung der -2*Loglikelihood vom Nullmodell
(wie schlecht passt das Nullmodell)
3. Schätzung des spezifizierten Modells (unser Modell)
(Parameter werden so geschätzt, dass das Modell bestmöglich auf die Daten passt.
Loglikelihood soll möglichst klein werden)
4.Vergleich der Loglikelihood und die Berechnung daraus resultierender Fit-Indices
Nullmodell
Der Output teilt sich in Blöcke:
Block 0: Wird das Nullmodell ausführlich berechnet.
(Modell ohne Prädiktoren, aber Verteilung der AV ist bekannt)
fast immer irrelevant für uns
Block 1: Unser Modell mit Prädiktoren
(weitere Blöcke kommen nur bei Modellvergleichen oder schrittweisen Verfahren zum
Einsatz)
33
Log-likelihood von Nullmodell (Schritt 2)
und spezifizierten Modell (Schritt 3)
Hier die -2LL von unserem Nullmodell!
Hier die -2LL von unserem
spezifizierten Modell. Die
Parameter in diesem Modell
wurden so geschätzt, dass die -2LL
möglichst klein wird.
(Parameter werden also so
geschätzt, dass das Modell best
möglichst auf die Daten passt)
log-likelihood-Statistik -2LL: wie schlecht passt unser Modell auf die Daten? -> sollte also
möglichst klein sein, um bestmöglich auf die Daten zu passen
gibt uns aber alleine keine interpretierbaren Informationen
34
Modellvergleich und Modellfit (Schritt 4)
χ²-Test
So lange keine automatisierte Modellauswahl
eingestellt ist, steht hier in jeder Zeile dasselbe,
nämlich der Modellvergleich: Unser
spezifiziertes Modell vs. Nullmodell
Was bedeutet hier der sign. x²-Test?
Unser Modell mit Prädiktoren ist sign. besser als das Baselinemodell (also ein Modell ohne
Prädiktoren!)
x2 = -2LL (Nullmodell) – (-2LL(spezifizierten Modell))
= 2[LL(spezifizierten Modell) – LL(Nullmodell)
Df = df(spezifiziertes Modell) – df(Nullmodell)
Beispielrechnung hier:
x2 = 135, 533 - 85,116
df = 13 – 1
(df= Anzahl Prädiktoren + 1; (1 für die Konstante)
Dieser Test sagt uns lediglich: Unser spezifiziertes Modell ist sign. besser als ein Modell ohne
Prädiktoren.
Pseudo R²te
Bei dichotomer AV kann man keine echte Varianz
berechnen.
Daher kann man auch kein R² (Varianzaufklärung)
berechnen. Die Pseudo R²te versuchen aber
dennoch ein ähnliches Maß
darzustellen (hier Erklärungskraft gemessen in
Anteilen eines perfekten Modells).
1. Cox n Snell
konservativer Ersatz für R²
34,1% der Varianz kann erklärt werden durch das Modell
das ist allgemein als gut bis sehr gut zu werten
kann nie 1 werden -> blöd, weil Modelle dann nie passen würde -> deshalb Korrektur
2. Nagelkerke
progressiver Ersatz für R2
hat standardisierte Form entwickelt
je schlechter Nullmodell, desto größer R²
hier .506 als gut bis sehr gut zu werten
Zwischen 34,1 und 50,6% der Varianz können durch das spezifizierte Modell erklärt
werden
35
Fazit
Pseudo R² können ähnlich interpretiert werden wie R² aus der linearen Regression.
SPSS gibt uns nur Cox n Snell und Nagelkerke (immer etwas größer als Cox n Snell) aus. In
unserem Beispiel können zwischen 34,1% und 50,6% der Variabilität im Kriterium durch
unser Modell erklärt werden.
Mit dem χ2-Test kann das spezifizierte Modell gegen das Nullmodell, aber auch gegen jedes
andere genestete Modell getestet werden.
Wichtigste Schritte bei der Interpretation
1. Modellfit (x2-Test, Pseudo-R2te + evtl. Kennwerte aus der Klassifikation)
2. Koeffizienten (was wirkt wie stark und in welche Richtung und ist es sign.?)
Für manche Fragestellungen kann es wichtig sein, die Klassifikationstabellen anzuschauen.
Z.B. kann es sein, dass mich gar nicht der „Overall-fit“ so sehr interessiert, sondern es geht
mir vor allem darum eine sehr sensitive Testbatterie zu haben.
Klassifikationstabellen
Block 0: Nullmodell (Modell, wo dieselbe WSK für jd. Person hat; zieht Infos aus Grundgesamtheit,
75,2% werden richtig einsortiert)
Block 1: unser Modell (11 Personen mehr werden richtig klassifiziert)
36
Sensitivität, Spezifität und pos. Prädiktionswert eines Modells bestimmen
RP=17
FN=13
RN=85
FP=6
Sensitivität (Wie viel wird erkannt?): 56,7% (nicht gut für Screening, zu gering)
Spezifität (Gegenteil: Wie gut werfe ich faule Eier raus?): 93,4%
Pos. Prädiktionswert: (17/23)*100 ≈ 73,9%
Das heißt, wir können Sensitivität und Spezifität auch für ein ganzes Modell ermitteln. Hebt
man den Trennwert (Cut-Off) an, dann gewinnt man Spezifität. Senkt man den Trennwert
(Cut-Off), dann gewinnt man Sensitivität. – Immer aber zum Preis, dass die
Overall-korrekten-Klassifikationen sinken.
Vorlesung 9
Überlebenszeitanalysen
Was sind Eventdaten? Wie sind sie strukturiert?
oder Event-occurrence-Analysen
 fragen danach: „Tritt ein bestimmtes Event auf, und wenn ja, wann?“
 „Gibt es individuelle Faktoren, die das Risiko, dass ein Event eintritt, reduzieren
oder erhöhen?“
 Was ist jetzt unter dem Event zu verstehen? – Klassische Anwendungen haben
darunter meistens den Tod oder eine bestimmte Todesursache verstanden
Events-Occurrence, die für Psychologen relevant sein können:
- Rückfall nach einer Entwöhnungsbehandlung oder rezidivierender Depression
- Erstes delinquentes Verhalten bei Jugendlichen
- Erstes Auftreten von Symptomen bei Personen von Hochrisikogruppen
- Wie schnell schlägt eine Therapie an?
37
Beispiel:
Eine Pandemie bricht aus, und wir haben 18 frisch infizierte Freiwillige, die wir 30 Monate
begleiten. Wir schauen, „ob und falls ja, wann“ sie innerhalb der 30 Monate durch einen
Suizid sterben, um herauszufinden, ob Supertoxoplasmose wirklich das Suizidrisiko steigert.
In einem zweiten Schritt wollen wir schauen, ob sich die Sterberaten von einer
Kontrollgruppe unterscheiden.
„whether and when Rule“ von Singer&Willet:
 Wann immer „ob“ und „wann“ in meiner Fragestellung auftauchen, sollte ich
darüber nachdenken, ob ich es nicht mit Event- /Überlebensdaten zu tun habe bzw.
meine Konstrukte so operationalisieren sollte, dass ich Event-/Überlebensdaten
erhalte.
 deutsche Publikationen: fast immer der Satz „Wie lange dauert es, bis…“
Wichtigste Fragen bzgl. der Erhebung von Eventdaten:
- Welches konkrete Event untersuchen wir?
(in unserem Datenbeispiel: Suizid. Besonderheit: Stirbt eine Person aus anderen
Gründen, können wir leider nicht mehr rausfinden, ob und wann das Event eingetreten
wäre.)
- Was ist der Zeitpunkt Null?
(in unserem Datenbeispiel: direkt ab der Diagnose – wünschenswert wäre ab der
Infektion, aber das ist in vielen Fällen schwierig zu erreichen und führt zu zusätzlicher
Unsicherheit in den Daten. Nehmen wir aber an, dass aufgrund der Pandemie
Testungen täglich durchgeführt werden sollen, sollte dies hier kein Problem darstellen)
- In welcher Metrik messen wir die Zeit?
(in unserem simulierten Beispiel kommt von jedem Infizierten ein Wochenbericht rein)
Einfachste Art von Eventdaten – Eigenschaften
- Alle VPs starten zum Zeitpunkt Null
- Zeit wird diskret (Zeitpunkte/-intervalle) gemessen
- Jeder VP ist ein Zeitpunkt zugeordnet, wann etwas passiert ist
- Passieren kann, dass das Event eintritt oder die VPs aus irgendeinem anderen Grund nicht
mehr weiterbeobachtet wird (z.B. der Untersuchungszeitraum ist vorbei)
man unterscheidet Fälle, bei denen das Event eintritt i.d.R. von
zensierten Fällen
- entsprechen im Prinzip „Missings“ aus anderen Verfahren, besitzen aber für die
Überlebensanalysen immer noch mehr Informationen
- rechtszensierten Daten: wir wissen zwar nicht, wann das Ereignis eingetreten wäre, aber
dass es später als die letzte Beobachtung sein muss
- intervallzensierten Daten: Daten aus einem oder mehreren Zeitintervallen fehlen
In unserem Beispiel ist das nicht weiter schlimm, da wir davon ausgehen können, dass das
Ereignis Suizid nicht in dem Zeitraum eingetreten sein kann. (Person lebt ja später noch)
- Linkszensierte Daten: Startpunkt unbekannt
In psychologischen Untersuchungen ist dies fast immer durch das Design vermeidbar.
Probleme können aber z.B. bei der Bestimmung des Startpunktes einer Depression o.ä.
entstehen.
38
zensierte Fälle werden in noninformative und informative unterteilt
 Grundannahme, davon gehen wir aus:
noninformative entspricht in etwa MCAR: Mechanismus, der dafür sorgt, dass Fälle
zensiert werden ist rein zufällig
 informative (entspricht in etwas MNAR): Mechanismus, der dafür sorgt, dass Fälle
zensiert werden und die Auftretenswahrscheinlichkeit des Events sind konfundiert.
Beispiel: Wir warten darauf, dass Alkoholabstinente rückfällig werden. Dummerweise
neigen Rückfällige dazu, sich nicht mehr zu melden, bevor man feststellen kann, dass
sie rückfällig geworden sind und werden als zensiert geführt.
rechtszensierter Fall (Zensur vor Ende der Untersuchung)
rechtszensierter Fall (Zensur nach Ende der Untersuchung)
Intervallzensierter Fall
wo ein ? steht -> drop-out -> wir wissen nichts
Klassische Ansätze bei Zeiteinteilung
- Sterbetafeln bzw. Versicherungsmathematische Methode
unterteilt Zeit in gleichgroße, vor der Analyse definierte Zeitintervalle
- Kaplan-Meier-Methode
unterteilt Zeit in unterschiedlich große Intervalle
Zeitintervall beginnt, wenn gerade ein Ereignis eingetreten ist und endet, wenn ein neues
auftritt.
39
Survival und Hazard-Rates interpretieren können
Survivor-Rates/-function
Wie viel Personen leben noch zu einem bestimmten Zeitpunkt?
Wie schnell sterben VP? Wie schnell treten Ereignisse ein?
rein deskriptiv, nicht parametrisches Verfahren
fällt immer
Hazard-Rates/-function
Ausfallrate (relatives Risiko zu einem Zeitpunkt)
kumulierte Hazardrate:
steigt
40
nicht kumulierte Hazardrate:
Zeiten, in denen besonders viel Risiko herrscht, können besser/ schneller erkannt werden als
bei der kumulierten
Risiko zu Beginn recht hoch
dann sinkt sie und irgendwo ab Woche 9 steigt sie schnell wieder nach oben
Beispiele
links: Hazard
rechts: survival
ML: median-lifetime
Kokain: je länger man es geschafft hat, desto geringer das Risiko nach 7 ½ Wochen Rückfall
zu bekommen
Erste Mal: je älter, desto wahrscheinlicher, ab der 10. Klasse die Hälfte
Während Pubertät größte WSK, mit 14 hat jeder 2. schonmal daran gedacht
41
7
Sinkt erstmal, aber nach 6 Jahren Legislaturp. steigt es wieder, Hälfte bleibt etwa 3,5 im Amt
Medium-life-time allein anzuschauen ist schwierig
hier in beiden Beispielen ML=5, aber die Hazards sehen total unterschiedlich aus
Fazit zum rein Deskriptiven
immer Hazard-und Survivor- function anschauen
Median-Lifetime kann spannende Information sein, alleine recht informationsarm
42
Zwei Gruppen nach Kaplan-Meier verglichen bewerten können, ob die sich sign.
unterschieden!
Wie kann man nun 2 Gruppenverläufe vergleichen?
wenn sich die beiden Gruppenverläufe grafisch kreuzen, ist kein Vergleich möglich!!!
Gruppe {0=nicht infiziert ; 1=infiziert}
Mittlere geschätzte Zeit bis Event eintritt
Geschätzter Median bis Event eintritt, bei Gruppe 0 kein Wert, weil Wert nie auf <50% fällt,
keine medium-life-time
Die sign. zu unseren drei Tests: Die Gruppen unterscheiden sich nicht sign.
Wären die p-Werte signifikant, würden sich die Gruppen unterscheiden!
Cox-Regression
Überlebenszeitanalyse mit intervallskalierten Kovariaten
ähnlich wie Regression
Modellgleichung:
Hazard zu einem Zeitpunkt h(t) ergibt sich aus einer Art „Grundhazard“ h0(t), wie er für jede
Person zu diesem Zeitpunkt wäre, wenn diese Person auf allen Kovariaten den Wert 0 hat
mal einem Wert der sich als Linearkombination aus Prädiktorwerten und Gewichten (QuasiRegressionsgewichte) ergibt
Wenn Gewicht b1 1,031: Personen mit Toxoplasmose haben eine höhere Chance, dass das
Event innerhalb eines Zeitintervalls eintritt
Nehmen wir davon exp()=Odds, erhalten wir das Risikoverhältnis: Risiko für eine Person mit
Toxoplasmose ist 2,804 mal so hoch ist wie bei einer Person ohne! Der Effekt ist signifikant!
43
Interaktion:
Effekt von Katzenbegegnungen wird dadurch moderiert, ob man mit Supertoxoplasmose
infiziert ist oder nicht
Ist man es (Supertoxoplasmose =1), dann beträgt das b für Anzahl Katzen ca. 0,064
(= (- ,693) + 0,757) bzw. als exp(b) beträgt es ca. 1,07 (2.131x0.5)
Pro Katze, die einem Menschen mit Supertoxoplasmose begegnet, steigt das Risiko mal 1,07.
Für Menschen ohne Supertoxoplasmose stellen Katzen hingegen sogar einen Schutzfaktor
dar. Für jede Katze, die einem Menschen ohne Supertoxoplasmose begegnet, wird das Risiko
mal 0,5 genommen.
exp der Interaktion ist nicht direkt interpretierbar, umrechnen (siehe oben)
Output Cox-Regression mit maximal 2 Variablen und einer Moderation (auf jeden Fall wird
der Moderator dichotom sein) auf Sign. des Gesamtmodells überprüfen & Koeffizienten
interpretieren
44
Coxregression – Fazit







Event-Daten/Überlebensdaten analysieren und dabei auch mehrere
intervallskalierte oder dichotome Kovariaten aufzunehmen
auch möglich Interaktionen/Moderationen mit ins Modell aufzunehmen
Schätzung der Gewichte erfolgt mittels Maximum-Liklihood
Modelltest erfolgt durch einen Vergleich der Loglikelihood des Nullmodells und des
spezifizierten Modells
nimmt an, dass die Stärke des Einflusses einer Kovariate über die Zeit konstant ist
Hab ich 1 Pkt. mehr auf einem Risikofaktor und beim Exp(b) wurde dafür mit 2
geschätzt, dann ist man Risiko zu jedem Zeitpunkt doppelt so hoch wie für jemanden
der 0 Pkt. auf dem Risikofaktor hat!
Modelle mit dieser Annahme gehören zur Klasse der „proportionalhazards models“
kann schwanken wie sie will, da sie kein Verteilungsannahmen bzgl. des Hazards
hat
Kurven dürfen sich auch kreuzen, was sie bei Kaplan-Meier nicht dürfen
wird häufig zu den semiparametrischen Verfahren gezählt, da die h0(t) jede Form
annehmen kann, die Kovariaten aber immer als Linearkombination ins Modell
einfließen. Die Cox-Regression verliert dadurch etwas an Genauigkeit, gewinnt aber
an Robustheit gegenüber voll-parametrischen Verfahren!
Vorlesung 10
LCA – Latent-Class-Analyse
probabilistisches latentes Klassenmodell
querschnittliches Verfahren
Ziele der LCA/ Fragen, die LCA beantworten sollte:
• Aufdeckung von latenten Typen: Wie viele Klassen gibt es?
• Bestimmung typischer Antwortmuster (Patterns)
• Klassifikation von Personen: Welche Person gehört zu welcher Klasse? Wie groß sind die
Klassen?
• Bestimmung der Wahrscheinlichkeit einer bestimmten Antwort: Wie groß ist die
Lösungswahrscheinlichkeit für ein Item (bei bekannter Klassenzugehörigkeit)?
LCA vs. Faktorenanalyse
45
Was sind Patterns?
Antwortmuster
z.B. Gibt es unterschiedliche Persönlichkeitstypen?
Kennzeichnung der Persönlichkeitstypen über ihr Antwortmuster (Pattern)
Etwa: Choleriker sollen möglichst den ersten beiden Items zustimmen, und die anderen
möglichst ablehnen
Es gibt aber auch immer Personen, die nicht in diese typischen Klassifizierungen passen ->
Modell, das mit Wahrscheinlichkeiten arbeitet (probabilistisches Modell)
z.B. Choleriker haben hohe Wahrscheinlichkeiten, den ersten beiden Items zuzustimmen und
geringe Wahrscheinlichkeiten, den anderen Items zuzustimmen
Was sind die 4 Annahmen der LCA? anwenden können
1. Die Lösungswahrscheinlichkeit eines Items ist konstant für alle Mitglieder einer Klasse
2. Jede Person gehört genau einer Klasse an, d.h. alle Personen werden klassifiziert
(exhaustiv) und dabei nur einer einzigen Klasse zugeordnet (disjunkt)
3. Alle Items messen dieselbe typologische Eigenschaft
messe also nur Choleriker, Phlegmatiker und nicht noch was anderes
4. Lokale stochastische Unabhängigkeit (alle Gemeinsamkeiten der Items sind durch die
Klassenvariable aufgeklärt)
Was für Daten muss ich vorliegen haben, damit ich eine LCA rechnen kann, was muss ich
bei der Analyse selber vorgeben?
dichotome Variablen/Items
auch mehrkategoriale Items oder ordinale Restriktionen annehmen
Für Items, die den Prinzipien einer Likertskala genügen, gibt es nochmal eigene
Restriktionen.
Vorgeben muss ich die Anzahl der latenten Klassen.
Wie finde ich die Anzahl an latenten Klassen in meinen Daten heraus?


muss vorgegeben werden:
entweder theoriegeleitet oder es werden verschiedene Lösungen ausprobiert
Die einzelnen WSK sollen so geschätzt werden, dass die beobachteten Patterns
bestmöglich erklärt werden. Dies kann i.d.R. nur iterativ gelöst werden
Wie interpretiere ich meine Klassenlösung?

WSK angucken
46
Modellvergleich
Modelle, die sich in der Klassenzahl unterscheiden, werden in Bezug auf AIC oder BIC
Verglichen
-> Kleinerer Wert zeigt bessere Modellanpassung an
Welches Modell nehme ich jetzt?
- Nach AIC / BIC schauen, welches am besten auf die Daten passt.
- Inhaltlich schauen, welche Klassenlösungen am plausibelsten erscheinen.
- Mischung aus beidem: Grob Modelle nach AIC/BIC vergleichen, bei kleinen Unterschieden
schauen, welche Lösung inhaltlich plausibler ist.
47
Herunterladen