Multivariate Statistische Verfahren Log-Lineare Analyse Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen 1 Log-Lineare Analyse Einführung: Bei der logistischen oder Poisson-Regression ist die Fragestellung asymmetrisch – mehreren unabhängigen Variablen steht eine abhängige Variable gegenüber. Bei der log-linearen Analyse ist die Frage symmetrisch: man ist an der Beziehung zwischen den verschiedenen Variablen interessiert. ij "wahre" relative Häufigkeiten (Wahrscheinlichkeiten) für das Zusammentreffen der Kategorien Ai und B j . i (i 1, , I ), j ( j 1, , J ) sind die Randverteilungen der Tabelle. 2 Log-Lineare Analyse Erhebungsschemata: Kontingenztabellen können anhand verschiedener Schemata zustande kommen; die Analyse der Tabelle hängt vom Schema der Tabelle ab. Man unterscheidet (1) Das produkt-multinomiale Schema (2) Das multinomiale Schema (3) Das Poisson-Schema. Produkt-multinomiale Schema: analog zur Varianzanalyse, - es gibt Kategorien für unabhängige Variablen, und die Fälle werden auf Response-Kategorien aufgeteilt. Das multinomiale Schema: Eine Stichprobe mit festem Umfang wird auf die möglichen Kombinationen von Kategorien aufgeteilt. Die Zeit spielt bei der Erhebung keine Rolle. Das Poisson-Schema: Wie das multinomiale Schema, nur wird eine Zeitdauer für die Beobachtung aufgestellt und der Stichprobenumfang ist offen. 3 Log-Lineare Analyse Produkt-multinomiales Schema: Beispiel: Aufmerksamkeitsfokussierung. Fokussierung auf bestimmte Musteraspekte beeinflußt die Klassifikationsleistung. Die Fokussierung auf ein irrelevantes Merkmal begünstigt in Abhängigkeit von der Stimulus Onset Asynchrony (SOA) die Wahrscheinlichkeit einer korrekten Klassifikation. Gezeigt wird stets immer dasselbe Muster, - aber in Abhängigkeit von der SOA werden verschiedene Muster mit verschiedener Wahrscheinlichkeit angezeigt. Alle Muster werden gleichhäufig (70-mal) gezeigt. 4 Log-Lineare Analyse Produkt-multinomiales Schema: Weitere Beispiele Faktorstufen: Anzahl Stunden Therapie – Reaktionen: Arten von Panikanfällen Altersgruppen – Reaktionen: gewählte Parteien Studienfach – Reaktionen: Einstellungen zu sozialen Fragen Etc etc 5 Log-Lineare Analyse Multinomiales Schema Die 8099 Insassen der Psychiatr. Krankenhäuser wurden nach Maßgabe der Merkmalskombination auf die Zellen der Tabelle aufgeteilt. 6 Log-Lineare Analyse Hypothesen und ihre Überprüfung: Poisson-Schema Produkt-multinomiales Schema: Beim Körperbau-Beispiel wurde nicht die Zeit, sondern (implizit) die Gesamtzahl der Fälle festgelegt. Beim Poisson-Schema betrachtet man etwa ein Krankenhaus für eine festgelegte Zeirtspanne und klassifiziert die hereinkommenden Patienten nach vorgegebenen Kategorienkombinationen. Die Anzahl der Patienten wird Poisson-verteilt sein. 7 Log-Lineare Analyse Hypothesen und ihre Überprüfung: Produkt-multinomiales Schema: I P(ni1 , ni 2 , , niJ ) i 1 ni ! in1i1 in2i 2 ni1 !ni 2 ! niJ ! iJn iJ Hypothese: 1 j j 2 Die Randsummen sind vom Experimentator festgelegt worden, die Fälle werden unabhängig voneinander erhoben die nij sind multinomial verteilt! iJ für alle j erwartete Häufigkeit ist durch n n nij ni ij i j n gegeben. 8 Log-Lineare Analyse Hypothesen und ihre Überprüfung: Multinomiales Schema: analog zum produkt-multinomialen Schema Poisson-Schema: P(n11 , , nIJ ) i, j ij nij e nij ! nij , E (nij ) ij i j ij (multiplikative Hypothese, multiplikatives Poisson-Modell) ij ij kl k ,l 9 Log-Lineare Analyse Hypothesen und ihre Überprüfung: Gegeben sei das produkt-multinomiale Schema. Man hat pij nij n , pi pij , p j pij , j i p i i p j 1 j Hypothese: Die ''Faktoren A und B sind unabhängig voneinander! Dann sind die erwarteten Häufigkeiten durch nij n pij n pi p j gegeben. Daraus folgt sofort log nij log(n ij ) log(n i j ) log n log i log j . 10 Log-Lineare Analyse Hypothesen und ihre Überprüfung: log nij log(n ij ) log(n i j ) log n log i log j . (Analog zur Varianzanalyse mit log i und log j als Haupteffekten.) 1 1 B log , log j , log n A B , n n i I i J j und mit A iA log i A , Bj log j iA Bj 0. i j Das Modell enthält keinen Wechselwirkungsterm - dies ist Ausdruck der Annahme der Unabhängigkeit von A und B! 11 Log-Lineare Analyse Hypothesen und ihre Überprüfung: Um den allgemeinen Fall (es existieren Abhängigkeiten) zu behandeln, wird ein Wechselwirkungsterm eingeführt: ijAB log ij iA Bj Man findet AB ij 0, und man hat das "gesättigte" Modell i, j log nij iA Bj ijAB (entspricht dem Strukturmodell einer 2-dimensionalen Varianzanalyse). Die iA und Bj interessieren hier kaum (vom Untersucher festgelegt) gesucht sind die ijAB `0. Sind alle ijAB `0, ist das Modell trivial, weil man dann alle Daten "erklären" kann!. 12 Log-Lineare Analyse Beziehung zu Wahrscheinlichkeiten: Allgemein gilt log nij , also folgt nij e A i n e i ij B j iA Bj ijAB AB ij iA Bj ijAB , und , also j e iA Bj ijAB e i iA Bj ijAB . j 13 Log-Lineare Analyse Rolle der Ehebungsschemata: Nach der Unabhängigkeitshypothese gilt allgemein nij ni n j n . Ist das Erhebungsschema das Poisson-Schema, so gilt log nij iA Bj ohne weitere Einschränkungen. Ist das Erhebungsschema das produkt-multinomiale Schema, so gilt log nij mit der Einschränkung, dass ni e A i B j iA Bj . j Ist das Erhebungsschema das multinomiale Schema, so gilt log nij mit der Einschränkung, dass n e A i B j iA Bj . j Die Parameter müssen also unter Berücksichtigung der für das jeweilige Erhebungsschema geltenden Einschränkungen geschätzt werden. 14 Log-Lineare Analyse Logits und Kreuzproduktverhälntnisse: Die Logits sind bei Unabhängigkeit für alle i identisch: log P( B1 | Ai ) n log i1 iA 1B iA 2B 1B 2B P( B2 | Ai ) ni 2 Das Kreuzproduktverhältnis für eine 2x2-Tabelle ist 12 22 log AB log n11 log n22 log n12 log n21 11AB 22AB 12AB 21AB , 12 21 und wegen ijAB ijAB 0, und 11AB 22AB 12AB 21AB folgt i j log 411AB . 15 Log-Lineare Analyse Logits und Kreuzproduktverhälntnisse: ist Assoziationsparameter der Tabelle; bei Unabhängigkeit gilt 1, log 0. Diese Bedigung ist genau dann erfüllt, wenn 11AB 0. Beispiel: Todesstrafe in den USA - die Hypothese ist, dass Schwarze häufiger zum Tode verurteilt werden als Weiße: 19 x149 1.181 141x17 doch Unabhängigkeit? 2 nicht signifikant! 16 Log-Lineare Analyse Beispiel: Interpretation von Tabellen Die Tabelle ist tatsächlich nur eine "Scheibe" aus einer insgesamt 3-dimensionalen Tabelle: Es muß also noch die Opfer-Relation berücksichtigt werden! 17 Log-Lineare Analyse 3-dimensionale Tabellen Es gibt zwei Arten von Tabellen: (1) Partialtabellen: Sie entstehen durch einen Schnitt durch die 3-dimensionale Tabelle, der durch die Stufen einer der drei Variablen entsteht. Man hätl etwa die Stufe Ai von A fest und betrachtet für diese Stufe die Tabelle B x C. Die Abhängigkeiten in einer Partialtabelle heißen "partielle Assoziationen". (2) Marginaltabellen: Sie entstehen, wenn über die Stufen eines Faktors aggregiert wird, etwa über die Stufen des Faktors A. Es entsteht wieder eine Tabelle B x C, mit den Häufigkeiten n jk nijk . Die Assoziationen i heißen "marginale Assoziationen". 18 Log-Lineare Analyse 3-dimensionale Tabellen Partielle und marginale Assoziationen können sich sehr voneinander unterscheiden: dieses Phänomen ist als Simpson ' s Paradox bekannt. Dies führt zur Frage der Aggregierbarkeit. Das allgemeine saturierte Modell lautet ABC log nijk iA Bj kC ijAB ikAC BC jk ijk Das saturierte Modell ist trivial, da es stets die Daten komplett erklärt. Die Frage ist deshalb, welche der Terme auf der rechten Seite gleich Null gesetzt werden können. 19 Log-Lineare Analyse 3-dimensionale Tabellen Die Wechselwirkung ABC 0 bedeutet, dass es keine spezifischen Beziehungen zwischen der Farbe des Täters, des Opfers und der Verhängung der Todesstrafe gibt. Die Wechselwirkung AB 0 bedeutet, dass es èine Abhängigkeit zwischen der Farbe des Täters und der Opfers gibt, etwa: Schwarze töten am liebsten Weiße, oder Weiße töten gerne Schwarze, oder Schwarze töten hauptsächlich Schwarze und Weiße töten hauptsächlich Weiße. Die Wechselwirkungen AC 0, BC 0 bedeuten, dass die Todesstrafe in Abhängigkeit von der Hautfarbe ausgesprochen wird (das ist die gängige Hypothese). 20 Log-Lineare Analyse 3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit Es sei Ck die k-te Stufe des Faktors C, TAB|C sei die Tabelle für die Faktoren A und B, wenn Ck festgehalten wird (k-te Scheibe aus der Tabelle AxBxC). ij|k sei die Wahrscheinlichkeit des Zusammentreffens von Ai und B j gegeben Ck . Gilt ij|k i |k j|k für alle i,j, so heißen die Faktoren A und B bedingt unabhängig, gegeben Ck . Gilt ij|k i |k j|k für alle i, j, k k so heißen die Faktoren A und B bedingt unabhängig von C. 21 Log-Lineare Analyse 3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit Sind A und B bedingt unabhängig von C , so gilt log nijk iA Bj kC ikAC BC jk , dh es soll AB ABC 0 gelten. Demnach soll es keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers gebebn, und keine Interaktion zwischen Hautfarbe des Täters, des Opfers und der Verhängung der Todesstrafe. Man kann auf diese Weise verschiedene Modelle formulieren, welches Modell dann zutrifft, muß dann anhand der vorliegenden Daten entschieden werden. Man tested insbesondere hierarchische Modelle : 22 Log-Lineare Analyse 3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit 23 Log-Lineare Analyse 3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit 24 Log-Lineare Analyse 3-dimensionale Tabellen: Der Begriff der Bedingten Unabhängigkeit Signifikante G 2 Werte bedeuten, dass das Modell nicht mit den Daten kompatibel ist. ( AB, BC ) ist akzeptabel: Todesstr x Farbe Opfer einerseits, Assoziation Opfer-Täter. Es ist nicht das beste Modell. ( AB, AC , BC ): Assoz. TS-Farbe Opfer, TS-Farbe Täter, Opfer-Täter ( ABC ): Assoziation TS - Opfer-Täter jeweils ganz spezifisch! 25 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Aggregieren: Über die Stufen eines Faktors summieren = zusammenfassen so dass zB aus einer 3-dimensionalen eine 2-dimensionalen Tabelle wird. (Marginaltabelle) Wird nur die k-te Scheibe einer 3-dimensionalen Tabell betrachtet, so entsteht ein Partialtabelle. Schlußfolgerungen aus Marginaltabellen - also aggregierten Tabellen können falsch sein. Da jede Tabelle als aggregierte Tabelle aufgefaßt werden kann, können die Folgerungen aus jeder Tabelle falsch sein. 26 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Aggregiert über Opfer Aggregiert über Täter 1.21 Kein Zusammenh. 3.38 Verurteilung zwischen Farbe und Verurteil. hängt von Farbe des Opfers ab! Aggregiert über Strafe 27.433.38 Weiße Weiße, Schwarze Schwarze 27 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Aggregiert über Opfer Aggregiert über Täter 1.21 Kein Zusammenh. 3.38 Verurteilung hängt zwischen Farbe und Verurteil. von der Farbe des Opfers ab! Der Widerspruch wird durch die Aggregation erzeugt. Aggregation etwa über C kann scheinbare Assoziation zwischen A und B erzeugen, die nicht wirklich existiert. (s.a. Scheinkorrelation) 28 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Satz : Die Variable C ist bezüglich der Interaktion von A und B aggregierbar, wenn C bedingt unabhängig von A oder B ist. C ist bezüglich dem Haupteffekt von A oder B aggregierbar, wenn die Interaktion zwischen C und A zwischen C und B verschwindet. Erklärung: Der Satz von der Totalen Wahrscheinlichkeit: P( A) P( A | B) P( B) P( A | B) P(B) (B steht für "nicht B") 29 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Allgemein: A sei ein beliebiges zufälliges Ereignis, und B1 , , Bn sei eine menge zufälliger Ereignisse , von denen nicht zwei gemeinsam auftreten können, aber eines von ihnen mit Sicherheit eintritt (Bi B, , für i j , und n Bi das i 1 sichere Ereignis) Dann n P( A) P( A | Bi ) P( Bi ) i 1 30 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Drei Faktoren A, B, und C , je zwei Stufen. Aggregation über C bedeutet, dass man nur P( A | B) (bzw. P( B | A)) betrachtet. B kann nun mit C oder C auftreten. P( A | B C ) P( A ( B C ) P( A ( B C ) , P( A | B C ) P( B C ) P( B C ) P( A | B C ) P( B C ) P( A ( B C ), P ( A | B C ) P ( B C ) P ( A ( B C ) P( A | B) P( A | B, C ) P(C | B) P( A | B, C ) P(C | B) (Statt B C wird einfach B, C geschrieben) 31 Log-Lineare Analyse 3-dimensionale Tabellen: Aggregierbarkeit und Simpson‘s Paradox Drei Faktoren A, B, und C , je zwei Stufen. Aggregation über C bedeutet, dass man nur P( A | B) (bzw. P( B | A)) betrachtet. B kann nun mit C oder C auftreten. P( A | B C ) P( A ( B C ) P( A ( B C ) , P( A | B C ) P( B C ) P( B C ) P( A | B C ) P( B C ) P( A ( B C )), P( A | B C ) P( B C ) P( A ( B C )) P( A | B) P( A | B, C ) P(C | B) P( A | B, C ) P(C | B) (Statt B C wird einfach B, C geschrieben) 32 Log-Lineare Analyse Aggregierbarkeit und Simpson‘s Paradox Behauptung: Sind B und C stochastisch unabhängig, so kann Simpsons Paradox nicht auftreten. Unabhängigkeit: P(C | B) P(C | B P(C) Es werde Unabhängigkeit und Simpsons Paradox angenommen: (*) P( A | B) P( A | B) (**) P( A | B, C ) P( A | B, C ) (***) P( A | B, C ) P( A | B, C ) (*) P( A | B, C ) P(C ) P( A | B, C ) P(C ) P( A | B, C ) P(C ) P( A | B, C ) P(C ) 0 < ( P( A | B, C) P( A | B, C)) P(C) ( P( A | B, C) P( A | B, C)) P(C) Widerspruch, da Differenzen nach Voraussetzung kleiner als Null! 33 Log-Lineare Analyse Aggregierbarkeit und Simpson‘s Paradox Anmerkungen: Stochastische Unabhängigkeit von B und C ist eine hinreichende Bedingung dafür, dass das Simpson Paradox nicht auftritt, aber keine notwendige Bedingung! Man kann aus der Tatsache, dass Simpsons Paradox nicht vorliegt, nicht die Unabhängigkeit von B, C folgern! Es kann also sein, dass Simpsons Paradox nicht vorliegt, obwohl es eine Assoziation zwischen B und C gibt. Aber derartige Assoziationen werden eine verzerrende Wirkung auf die Beziehung zwischen A und B haben (zB auf den -Koeffizienten). 34