Log-lineare Modelle

Werbung
Analyse von Häufigkeiten
Log-lineare Modelle
Kompaktkurs, Teil I
FB Psychologie
Johannes-Gutenberg-Universität
Mainz
25.05 – 28.05.2010
U. Mortensen
Log-lineare Modelle (1)
nij = beobachtete Häufigkeit der KategorienKombination ( Ai , B j )
nij  wahre Häufigkeit von ( Ai , B j )
 ij  nij / N
 i     ij ,   j    ij ,
j
i
i  i  j   j  1
Unter Ho (Unabhängigkeit von Zeilen und Spalten) erwartete
ni  n j
Häufigkeiten: eij 
 N i   j
N
Log-lineare Modelle (1a)
Warum keine lineare Analyse, -- wie etwa die Varianzanalyse?
nij    i   j  ij  eij
Additiver Fehler
Wie ist ein additiver Fehler bei
Häufigkeiten zu denken?
Häufigkeiten hängen nichtlinear
von unabhängigen Variablen ab.
Log-lineare Modelle (2)
ni  n j
eij 
 N i   j  log eij  log N  log  i   log   j
N
Entspricht dem varianzanalyt. Modell ij    i    j
(Wenn keine Wechselwirkungen existieren!)
Repräsentiert Wechselwirkung
zwischen Ai und Bj.
Log-lineare Modelle (3)
Modell für die wahren Häufigkeiten, mit
Dies definiert das „saturierte Modell“ – für jeden „Haupteffekt“ und
jeden Wechselwirkungseffekt existiert ein Parameter.
Das Modell passt trivialerweise zu den Daten, für jede Zelle der Tabelle
gibt es einen Parameter.
Beziehung Modell und Wahrscheinlichkeiten:
log nij        
A
i
I
J
B
j
I
J
n   nij  e
i 1 j 1
i 1 j 1
AB
ij
 nij  e
  iA  B j  ijAB
  iA  B j  ijAB
 ij 
e
  iA  B j  ijAB
 e
r
s
  rA  Bs  rsAB
Log-lineare Modelle (4)
Saturiertes Modell:
 ij 
e
  iA  B j  ijAB
 e
r
  rA  Bs  rsAB
Test für die Existenz von Abhängigkeiten:
I
J
 2  
i 1 j 1
(nij  eij )2
eij
, df = ( I  1)( J  1)
s
Spezielle Modelle: bestimmte freie Parameter werden gleich Null
gesetzt, insbesondere solche, die Interaktionen repräsentieren.
Die freien Parameter werden dann geschätzt. Die Schätzung hängt
aber von der Erhebungsmethode ab. Deshalb zunnächst die
gängigen Erhebungsmethoden:
Log-lineare Modelle (5)
Erhebungsmethoden
1. Das produkt-multinomiale Schema:
Es gibt eine Reihe von unabhängigen Variablen in verschiedenen
Ausprägungen. Es wird eine Stichprobe von n Personen oder
Objekten gebildet. Bei jeder Person oder jedem Objekt wird geprüft,
welche Ausprägung jeder der unabhängigen Variablen vorhanden
ist; dann wird die Person/das Objekt der entsprechenden Zelle der
Kontingenztabelle zugefügt. Am Ende wird die Anzahl der Fälle pro
Zelle ausgezählt.
Beispiel entspricht einer
einfaktoriellen ANOVA
Log-lineare Modelle (6)
1. Das produkt-multinomiale Schema: Fortsetzung
Die Häufigkeitsverteilung in einer Zeile folgt einer
Multinomialverteilung:
Unter Ho sind alle Wahrscheinlichkeiten gleich groß:
Für die erwarteten Häufigkeiten gilt
eij 
ni  n j
n
Log-lineare Modelle (7)
3. Dasmultinomiale Schema:
• Stichprobe vom Umfang n wird gebildet
• Personen werden nach Maßgabe der Kategorien in eine Kategorien –
kombination eingezählt.
• Randsummen liegen nicht fest, bis auf den Sachverhalt, dass die Gesamt –
summe gleich n sein muß.
Verteilung der Häufigkeiten: multinomial:
Log-lineare Modelle (8)
3. Das Produkt-Multinomial-Schema:
Für jede Kategorie einer Klasse – etwa für jede Zeilenkategorie wird eine
Stichprobe vom Umfang ni gezogen, aus einer entprechenden Teilpopulation.
(Beispiel: Studierende verschiedener Fachrichtungen)
Jedes Element einer solchen Stichprobe wird genau einer der
Spaltenkategorien zugeordnet.
(Beispiel: Studierender einer Fachrichtung gibt eine Kategorie zur
Beurteilung einer von allen Fachrichtungen besuchten Statistikvorlesung an)
Bedingte Wahrscheinlichkeiten!
Log-lineare Modelle (9)
3. Das Produkt-Multinomial-Schema:
Beispiel:
Aufteilung der Gesamtstichprobe in eine Placebo- und eine Aspiringruppe,
Blindstudie; Beobachtungszeitraum – 5 Jahre
Log-lineare Modelle (10)
4. Das Poisson-Schema
• Die Erhebung wird während eines bestimmten Zeitraums durchgeführt
• Eine Person/ein Objekt wird nach Maßgabe der beobachteten Kategorien
in die Tabelle einsortiert.
Die Anzahl der Beobachtungen ist nicht a priori fixiert, sondern Poissonverteilt.
P(nij )  e
 ij

nij
ij
nij !
Multiplikatives Poisson-Modell
Log-lineare Modelle (11)
Untersuchungsarten – Beispiel Unfallarten
1. Poisson-Schema: Unfälle über Zeitraum registrieren und kategorisieren
2. 200 Unfallberichte der Polizei auswerten – Multinomialschema
3. 100 Berichte über Unfälle mit tödlichem + 100 Berichte mit nicht-tödlichem
Ausgang auswählen -- Produkt-Multinomial-Schema
4. Experimental-Design: Stichprobe von 200 Leuten aussuchen, 100 mit und
100 ohne Gurt fahren lassen, alle müssen Unfall machen (unethisch!)
Log-lineare Modelle (12)
709 Patienten, die im Laufe eines Jahres in eines von 20 Krankenhäusern
Londons wegen Lungenkrebs eingeliefert wurden. Raucher: wer fürdie Dauer
eines Jahres mindestens eine Zigarette täglich geraucht hatte.
Analog 709 dazu Patienten, die nicht wegen Lungenkrebs eingeliefert wurden.
Es wird nachträglich festgestellt, ob Patient Raucher oder Nichtraucher war,
Deshalb Retrospektives Design, -- Case Congtrol Study
Geliefert werden bedingte Wahrscheinlichkeiten: Raucher oder Nichtraucher,
gegeben sie haben Lungenkrebs oder nicht.
Log-lineare Modelle (13)
Üblicherweise wird aber die Inverse bedingte Wahrscheinlichkeit
gefordert:
Wahrscheinlichkeit, Liungenkrebs zu bekommen, gegeben man ist Raucher
oder Nichtraucher.
Man könnte Bayes‘ Theorem anwenden, aber Case Control Studies liefern
i. A. nicht die notwendigen absoluten Häufigkeiten:
P( A | B)  P( B | A)
P( A)
P( B)
Log-lineare Modelle (14)
Prospektive Studien:
Clinical Trials: Gruppe von Teenagern erheben. Die Hälfte bekommt denAuftrag, zu Rauchen, die anderen dürfen nicht rauchen, wenn sie 60 sind,
wird geprüft, wer Lungenkrebs hat und wer nicht. (unethisch!)
Allgemein: Probanden werden zu Beginn einer Bedingung K oder einer
Kontrollbedingung n-K zugeordnet. Nach Ablauf einer Periode wird
„Erfolg“ oder „Nichterfolg geprüft“.
Cohort Studies:
Cohort Studies: Teenager entscheiden selbst, ob sie rauchen oder nicht und
bilden auf diese Weise „Kohorten“. Nach einer Periode wird der Effekt geprüft.
Cross-sectional Studies:
Stichprobe wird zufällig gebildet und nach (i) Rauchverhalten, (ii) Lungenkrebs
Oder ken Lungenkrebs klassifiziert.
Alle diese Studien sind Beobachtungsstudien: es existiert die Möglichkeit
systematischer Fehler (Bias), im Unterschied zu Experimentalstudien.
Log-lineare Modelle (15)
Schätzung der Parameter in Abhängigkeit vom Erhebungsschema:
Unter H 0 gilt stets nij  ni  n j / n
Beim Poisson-Schema ist nij  ni  n j / n äquivalent zu
log nij    iA   Bj ohne weitere Nebenbedingungen
Beim Multinomial-Schema ist nij  ni  n j / n äquivalent zu
log nij       und der Nebenbedingung n   e
A
i
B
j
  iA   Bj
i, j
Beim Produkt-Multinomial-Schema ist nij  ni  n j / n äquivalent zu
log nij       und der Nebenbedingung ni    e
A
i
B
j
i, j
  iA   Bj
Log-lineare Modelle (16)
Allgemein: Wettchance (odds)  
Für Kontingenztabelle: log
p
p
; Logits log   log
1 p
1 p
P( B1 | Ai )
n
 log i1
P( B2 | Ai )
ni 2
Unabhängigkeitshypothese:
d.h. die Logits sind für alle i identisch!
Das Kreuzproduktverhältnis:  
 11 22
 12 21
log   11AB  22AB  12AB  21AB  411AB
Unter H 0 : log   0  11AB  0.
Log-lineare Modelle (17)
Verhängen von Todesurteilen in den USA: werden Schwarze häufiger
verurteilt als Weiße?
Chi-Quadrat nicht signifikant!
Aber: es kommt noch eine dritte Dimension hinzu: Täter – Opfer-Relation_
Weißer
Schwarzer
Weißen
Schwarzen
Log-lineare Modelle (18)
3-dimensionale Tabellen
Partialtabellen: Entstehen durch einen „Schnitt“ durch die 3-d-Tabelle
Marginaltabellen: Aggregation über eine Dimension.
Abhängigkeiten: marginale Assoziationen
Abbhängigkeiten in einer Marginaltabelle können sich stark von denen
einer Partialtabelle unterscheiden!
Saturiertes Modell_
Log-lineare Modelle (19)
Modelle: Das saturierte Modell kann in jedem Fall angepasst
werden, es ist nur eine Paraphrasierung der Daten.
Was sind die interessanten Modelle?
Log-lineare Modelle (20)
Erste Einschränkung des saturierten Modells:
(  ABC  0)
In Bezug auf das Beispiel bedeutet dies, dass es keine Wechselwirkung
zwischen
(i) der Farbe des Opfers,
(ii) der Farbe des Täters und
(iii) der Verhängung der Todesstrafe gibt!
Aber es sind noch Wechselwirkungen zwischen
(i) Farbe des Opfers und Farbe des Täters
(ii) Farbe des Täters und Verhängung der Todesstrafe
(iii) Farba des Opfers uind Verhängung der Todesstrafe möglich!
Log-lineare Modelle (21)
Natürlich ist auch  ABC  0 möglich, und mindestens eine der
Zweierinteraktionen ist gleich Null.
Das Modell der bedingten Unabhängigkeit:
Log-lineare Modelle (22)
A und B seien bedingt unabhängig von C; dann gilt das Modell
Beispiel: A Farbe Täter, B Farbe Opfer, C Todesstrafe ja/nein
Chi-Quadrat = 8.047
P = .0046
Chi-Quadrat = 107.7
p = .000
Täter X Opfer nicht bedingt unabhängig, Signifikanzen
trotz der Nichtsignifikanz der aggregierten Tabelle!
Log-lineare Modelle (23)
Unabhängigkeit von einer Variablen
Zum Beispiel:  ABC   AB  0
Der Faktor B ist gemeinsam unabhängig (jointly independent)
von den Faktoren A und C, wenn  ijk   i  k   j  .
B AC
Die Werte von AC sind gewissermaßen Werte einer neuen Variablen, die
von der Variablen B unabhängig ist
Das log-lineare Modell ist: (AC/B)
log nijk        
A
i
B
j
C
k
AC
ik
Es fehlen die Interaktionen AB, BC
und ABC
Im Beispiel: „Todesstrafen“: B = „Opfer“ ist unabhängig von (i) Verhängung der
Todesstrafe (BC) und (ii) der Farbe des Täters/der Täterin, d.h. es gibt auch keine
Beziehung zwischen der Farbe des Täters und der des Opfers (AB)
Log-lineare Modelle (24)
Das Modell vollständiger Unabhängigkeit A/B/C
Die Faktoren A, B und C heißen wechselseitig unabhängig, wenn
 ijk   i     j     k , und dementsprechend
log  ijk  log  i   log   j   log   k ,
entsprechend dem log-linearen Modell
log nijk    iA   Bj  kC
Keinerlei Interaktionen!
Log-lineare Modelle (25)
Hierarchische Modelle
Man läßt erst die Interaktion 2-ter Ordnung (ABC) weg, dann Interaktionen
1-ter Ordnung (AB, oder AC, oder BC, oder AB und AC, etc
Typen von Unabhängigkeit:
Log-lineare Modelle (26)
Log-lineare Modelle (27)
Hautfarbe und Todesstrafe
(A, B, C) = es existiert keinerlei Abhängigkeit zwischen
Hautfarbe des Opfers, des Täters, und der Verhängung
der Todesstrafe. Klar signifikant - Das Modell wird
verworfen
(A, BC) Todesstrafe unabhängig von der Farbe des
Opfers und des Täters, aber zwischen B und C kann
Abhängigkeit bestehen. Signifikante Abweichung
Modell u. Daten.
(AB, C) Todesstrafe hängt von Farbe des Opfers ab,
nicht von der des Täters. Signifikant, Modell
wird verworfen.
(AC, B) Todesstrafe hängt von Farbe des Täters,
nicht des Opfers ab. Signifikant, Modell wird
verworfen(AB, AC) TS hängt einerseits vom Farbe des Täters,
andererseits von der des Opfes ab: wenn ein
Schwarzer tötet, ist ers verwerflich, wenn ein Weißer
getötet wird,auch. Signifikant!
(AB, BC) TS hängt von Farbe des
(AB, AC, BC) Es gibt paarweise Abhängigkeiten,
Opfers ab, und es existiert
Beziehung Farbe Täter u Opfer, Noch akzeptabler, -- aber ist es das beste Modell
(Sparsamkeit!)?
akzeptabel!
Log-lineare Modelle (28)
(AB, BC) kann als das beste Modell betrachtet werden: es hat einen
Parameter weniger als das Modell paarweiser Unabhängigkeit und der pWert ist nur unwesentlich kleiner.
Zusammenfassung: Es gibt einen Zusammenhang
(i) zwischen der Farbe des Opfers, -- es ist schlimm, wenn ein Weißer getötet
wird
(ii) zwischen der Farbe des Täters und des Opfers – Weiße töten eher Weiße, und
Schwarze eher Schwarze.
Log-lineare Modelle (29)
Das Problem der Aggregierbarkeit – Simpsons Paradox
Gegeben sei eine (I x J x K)-Tabelle. Summation über eine der Variablen liefert
eine Marginaltabelle. Betrachtet man eine einzelne Scheibe des Würfels
((I x J), (I x K), (J x K)), so betrachtet man eine Partialtabelle.
Partialtabellen enthalten bedingte Häufigkeiten: es sind Häufigkeiten unter der
Bedingung der Stufe des Faktors, aus dem die Partialtabelle gebildet wurde.
Problem der Marginaltabellen: sie können Zusammenhang oder NichtZusammenhang suggerieren, der keinem Zusammenhang in den Partialtabellen
entspricht.
Log-lineare Modelle (30)
Aggregation über
Opfer
Chi-Quadrat = .222,
p = .638
Täter
Chi-Quadrat = 5.615,
p = .0178
Aggregation über Todesstrafe:
Chi-Quadrat = 115.01
P = .000
Log-lineare Modelle (31)
Simpson‘s Paradox:
Zeigen Marginal- und Partialtabellen verschiedene Richtungen der Abhängigkeiten
an, so hat man Simpson‘s Paradox.
Aggregiert man über einen Faktor C, so kann sich zwischen A und B ein
Zusammenhang zeigen, der nicht an sich existiert.
Chi-Quadrat = 8.00
P = .0047
Chi-Quadrat = 9.404
P = .0022
Chi-Quadrat = 20.20
P= .000
Log-lineare Modelle (32)
Unter welchen Bedingungen kann aggregiert werden?
Log-lineare Modelle (33)
Log-lineare Modelle und logistische Regression
Log-lineare Modelle: es werden die Assoziationen zwischen den
Stufen der Kategorien A, B, C, … untersucht; keine dieser
Kategorien ist „unabhängig“, keine ist „abhängig“
Logistische Regression (allgemein: Kategoriale Regression): dieStufen einer
Kategorie werden als abhängige Variable (response variable), und der anderen
Kategorien als unabhängige Variable (explanatory variables) aufgefasst.
nijk   ( x1 , x2 ,
, xr )
Unabhängige Variablen
Geeignet gewählte Funktion
Log-lineare Modelle (34)
1
P(  S ) 
Logistische Regression
1 e
nij
n
 pij  P(Y | x1 ,
, xn ),
0
Y   Indikatorvariable
1

s



1
1  e ( AS  B )
B ist Funktion der unabhängigen
Variablen, also Reparametrisierung:
P(  S ) 
Y zeigt an, ob ein zufälliges Ereignis
eingetreten ist oder nicht.
Y 1   S
Herzinfarkt (Y = 1) genau dann, wenn die
Verkalkung der Herzkranzgefäße größer als
S ist.
log
1
1 e
pij
1  pij
pij
1  pij
 (   i   j  ij )
 pij
   i   j  ij

 e  e i e j e
ij
Log-lineare Modelle (34)
Logit:
Odds, (Wett-)Cance
log
pij
1  pij

pij
1  pij
   i   j  ij

 e  e i e j e
ij
Man kann nun etwa die Variable „Todesstrafe“ (0 = „nein“, 1 = „Ja“) als
abhängige Variable auf der Basis der Hautfarbe von Täter und Opfer
„vorhersagen“.
Log-lineare Modelle (35)
Messwiederholungen (repeated measurements).
Bisher: alle Beobachtungen wurden stochastisch unabhängig voneinander
gewonnen.
Was geschieht, wenn die Häufigkeiten von den gleichen Personen etwa in
einem vorher-nachher-Design erhoben werden?
Log-lineare Modelle (36)
Zusammenfassung der Daten:
Man unterscheidet zwischen
• Marginalen, und
• Konditionalen Modellen
Log-lineare Modelle (37)
1. Marginale Modelle
Für gegebene Person seien die Antworten durch (Y1, Y2) kodiert:
1, "ja", positive Antwort, etc
Yt  
0, ''nein'', nicht geantwortet, Merkmal nicht vorhanden
  P(Y2  1)  P(Y1  1)

0,
link1  P(Yt  1)     xt , mit xt    P(Y1  1)   , P(Y2  1)    
1,
link 2  Logit(P(Yt 1 )) 
P(Yt  1)
    xt (Logit-Transformation)
1  P(Yt  1)
Mittelung über die Population/Stichprobe (population average)
Log-lineare Modelle (38)
Maximum-Likelihood-Schätzung (ML-Schätzung)
p1 p2

p2 p12
Die Schätzung hängt von den Randsummen ab: deshalb Marginalmodell
Konditionale Modelle
link( P(Yit  1))  i   xt
ß beschreibt eine bedingte Assoziation in einer durch eine Person definierte
Schicht einer 3-dimensionalen Tabelle; der Effekt ist subjekt-spezifisch, es wird
nicht über die Stichprobe gemittelt.
Für das Identitäts-link sind die Effekte für alle Personen identisch:
  P(Yi 2  1)  P(Yi1  1) für alle i
Log-lineare Modelle (39)
Bei Mittelung über alle Personen folgt
 
Ist link = Logit, so hat man
ei   xt
P(Yit  1) 
.
 i   xt
1 e
Mittelung über die i ergibt kein Modell der Form
e   xt
P(Y  1) 
.
   xt
1 e
Anmerkung: das Modell entspricht demRasch-Modell! Für die i-te Person
hat man
ei
ei  
P(Yi1  1) 
, P(Yi 2  1) 
.
i
i  
1 e
1 e
Log-lineare Modelle (40)
Für die Odds erhält man
P(Yi1  1)
P(Yi 2  1)
 ei ,
 ei e 
1  P(Yi1  1)
1  P(Yi 2  1)
Dh die Odds unterscheiden sich nur um den Faktor exp(ß)!
Herunterladen