Log-Lineare Modelle und die Interpretation von Kontingenztabellen U. Mortensen · Kompaktkurs Multivariate Methoden Psychologisches Institut der Johannes Gutenberg-Universität Mainz SS 2012 Juni 2012 1 Inhaltsverzeichnis 1 Einführung 3 1.1 Einführung in die Einführung . . . . . . . . . . . . . . . . . . . . . 3 1.2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit . . . . . . . . . 5 2 Log-lineare Analysen 11 2.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Erhebungsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.1 Das produkt-multinomiale Schema . . . . . . . . . . . . . . 14 2.2.2 Das multinomiale Schema . . . . . . . . . . . . . . . . . . . 15 2.2.3 Das Poisson-Schema . . . . . . . . . . . . . . . . . . . . . . 16 2.3 Parameter, Logits und Kreuzproduktverhältnisse. . . . . . . . . . . 18 2.4 Tests für die Güte der Anpassung . . . . . . . . . . . . . . . . . . . 19 2.5 Verallgemeinerung: 3-dimensionale Tafeln . . . . . . . . . . . . . . 20 2.6 Typen von Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . 23 2.6.1 Das Modell (AB/AC/BC) . . . . . . . . . . . . . . . . . . 23 2.6.2 Das Modell der bedingten Unabhängigkeit . . . . . . . . . . 24 2.6.3 Unabhängigkeit von einer Variablen, z.B. AC/B . . . . . . 25 2.6.4 Die vollständige Unabhängigkeit, A/B/C . . . . . . . . . . 25 2.6.5 Hierarchische Modelle . . . . . . . . . . . . . . . . . . . . . 26 2.7 Gesamtzahl möglicher Modelle . . . . . . . . . . . . . . . . . . . . 26 2.8 Interpretation der Parameter . . . . . . . . . . . . . . . . . . . . . 26 2.8.1 Drei-Faktor-Interaktion . . . . . . . . . . . . . . . . . . . . 26 2.8.2 Zwei-Faktor-Interaktionen . . . . . . . . . . . . . . . . . . . 27 2.8.3 Ein-Faktor-Effekte . . . . . . . . . . . . . . . . . . . . . . . 28 Aggregierbarkeit und das Simpsonsche Paradoxon . . . . . . . . . . 30 2.10 Logistische Regression und log-lineare Modelle . . . . . . . . . . . 38 2.9 2 1 1.1 Einführung Einführung in die Einführung Im Alltag sind wir es durchaus gewohnt, in Wahrscheinlichkeiten zu denken: Einem Studierenden, der in die Prokrastinationsfalle geraten ist und die oder der es nicht schafft, mit den Vorbereitungen für eine Prüfung zu beginnen, wird geraten, sich mittels einer Verhaltenstherapie helfen zu lassen, – vermutlich wird diese Therapie ihr oder ihm helfen. Einem Raucher, der es nicht schafft, sich das Rauchen abzugewöhnen, wird geraten, abrupt und von einem Tag auf den anderen mit dem Rauchen aufzuhören, vermutlich hätte er dann die beste Chance, Nichtraucher zu werden. Oft werden Ratschläge anders formuliert: Wenn du jetzt mit dem Rauchen aufhörst, statt dir jeden Tag ein paar Zigaretten weniger zu gönnen, wirst du dauerhaft zum Nichtraucher! Ein solcher Ratschlag ist aber vermutlich nur gut gemeint, aber wahrscheinlich trifft die Voraussage, dass der so Beratene tatsächlich nie mehr raucht, nicht ein. Man kann also vom folgenden Ansatz ausgehen: Axiom: Psychische Zustände, allgemein menschliche Verhaltensweisen, treten mit bestimmten Wahrscheinlichkeiten auf. Dieses Axiom schließt die Möglichkeit, dass bei einem bestimmten Menschen bestimmte Verhaltensweisen oder Zustände mit der Wahrscheinlichkeit Null oder Eins auftreten, ein. Dass der Chef der Deutschen Bank an der Tankstelle sich eine Packung Kekse stiehlt, hat die Wahrscheinlichkeit Null. Aber man sollte nicht vergessen, dass ein Ereignis mit der Wahrscheinlichkeit Null nicht unmöglich ist, und das ein Ereignis mit der Wahrscheinlichkeit Eins nicht mit Sicherheit eintreten muß. Andererseits hat ein unmögliches Ereignis stets die Wahrscheinlichkeit Null und das sichere Ereignis hat die Wahrscheinlichkeit 1. Ist A ein beliebiges zufälliges Ereignis mit der Wahrscheinlichkeit P (A) und 0 < P (A) < 1, und ist ¬A das zu A komplementäre Ereignis (nicht-A), so ist A ∪ ¬A = Ω ein Beispiel für das ”sichere Ereignis”, (∪ steht für das einschließende Oder), denn es tritt ja eines der beiden Ereignisse mit Sicherheit ein, und A ∩ ¬A ist ein Beispiel für ein unmögliches Ereignis, denn A und ¬A können nicht zugleich eintreten. Bei vielen Evaluationen von Maßnahmen oder Therapien kann nur ausgezählt werden, wie häufig eine Therapie ”erfolgreich ” verlaufen sind. Bei Maßnahmen zur Erhöhung der Verkehrssicherheit kann man zunächst einmal nur auszählen, ob die Anzahl der Unfälle geringer geworden ist, bei einer Untersuchung über die Effektivität einer Maßnahme zur Raucherentwöhnung (Nikotinpflaster, Kaugummis, Hypnosebehandlung etc) kann man letztlich nur auszählen, wieviele Raucher aus einer Stichprobe das Rauchen reduziert oder ganz eingestellt haben, etc. Die Daten werden dann in Tabellen zusammengefasst, die in der Statistik als Kontingenztabellen bekannt sind. Die Zahlen in den Tabellen legen oft bestimmte Hypothesen nahe, aber ebenso oft sind sie auch mit Alternativhypothesen vereinbar, – jedenfalls auf den ersten, intuitiven Blick hin. Die Frage, ob bestimmte unabhängige Variablen wie etwa das Alter, das Geschlecht, die Haut- oder Augenfarbe etc einen systematischen Einfluß auf die betrachteten Verhaltensweisen haben, kann selten durch direkte Inspektion der Tabellen beantwortet werden. So kommt die Frage nach systematischen Möglichkeiten der Analyse solcher Tabellen in die Welt. 3 Ein globales Maß für Abhängigkeiten in einer Kontingenztabelle ist das χ2 . Berechnet man den χ2 -Wert für die bekannte Westphal-Tabelle, die aus der Kategorisierung von Patienten nach Maßgabe ihres Körperbaus einerseits und ihrer mentalen Vefassung andererseits entstand, so findet man einen hochsignifikanten Wert, der nahelegt, dass der Körperbau mit bestimmten mentalen Zuständen assoziiert ist. Gleichzeitig ist klar, dass der Zusammenhang zwischen Körperbau und mentalem Zustand nicht deterministisch ist: unter den athletisch gebauten finden sich nicht nur Epileptiker, sondern auch Schizophrene und Manisch-Depressive, und unter den Leptosomen findet man nicht nur Schizophrene, sondern auch Epileptiker und Manisch-Depressive, etc. Es gibt eben nur eine statistische Kopplung zwischen den Merkmalen. Man kann es u.U. auch anders formulieren. Außer einer systematischen Komponente, die zB einen Leptosomen eher schizoid oder gar schizophren sein oder werden läßt, gibt es noch andere Einflüsse, die diese systematische Komponente überlagern, diese möglicherweise auf Null reduzieren und jedenfalls ganz andere psychische Zustände erzeugen als die, die mit dem Körperbau ”üblicherweise” einhergehen. Wir haben gelernt, dass Korrelationen nicht notwendig mit dem Begriff der Kausalität in Zusammenhang gebracht werden dürfen. Trotzdem drängen sich kausale Interpretationen oft auf. Infektionen treten bei einer Geburt auf, weil bestimmte Risikofaktoren gegeben waren. Man untersucht dann den Einfluß verschiedener Risikofaktoren auf die Wahrscheinlichkeit, dass bei einer Geburt eine Infektion auftritt. Man kann sich fragen, ob ein bestimmter Körperbau die Wahrscheinlichkeit, an Epilepsie zu erkranken, erhöht. Es könnte ja sein, dass ein bestimmter Körperbau mit spezifischen Aspekten des Stoffwechsels einhergeht, die wiederum die Neigung zu bestimmten neurologischen Störungen erhöhen, – aber selbst dann, wenn dies so wäre, hätte man es nicht mit einer deterministischen Kausalkette der Form ’athletischer Körperbau → Epilepsie’ zu tun, sondern eben nur mit einer statistischen ”Assoziation”. Andererseits wird man kaum davon ausgehen, dass eine neurologische Störung wie die Epilepsie im Sinne probabilistischer Kausalität – wenn diese saloppe Begriffsbildung für den Augenblick erlaubt ist – die Wahrscheinlichkeit erhöht, dass man einen athletischen Körperbau entwickelt. Ebenso wird man bei Infektionen kaum fragen, ob sie die Wahrscheinlichkeit eines Risikofaktors im Sinne einer deterministischen Kausalrelation erhöhen. Wenn man überhaupt von Kausalitäten reden will, so wird man die Risikofaktoren als Ursache der Infektion ansehen, nicht aber die Infektion als Ursache der Risikofaktoren. Diese Betrachtungen führen zum Begriff der Assoziation zwischen den beobachteten Merkmalen, der analog zu dem der Korrelation gesehen wird. Wenn zwei Merkmale als miteinander assoziiert erscheinen, muß dies nicht bedeuten, dass das eine Merkmal das andere kausal bewirkt. Vielmehr wird es oft so sein, dass es hinter den beobachteten Merkmalen liegende und insofern latente Merkmale gibt, die das gemeinsame Auftreten verschiedener Merkmale begünstigen. Das allgemeine χ2 gibt nur an, dass vermutlich derartige latente Strukturen existieren, oder auch nicht existieren, aber es sagt nicht, zwischen welchen Stufen der betrachteten Faktoren sie existieren oder nicht existieren. Es gibt eine Assoziation zwischen dem Faktor ”Körperbau” und dem Faktor ”mentaler Zustand”, – aber gibt es eine spezielle Beziehung zwischen dem atypischen Körperbau und der Schizophrenie? Diese Frage erfordert Analysen, die über die Berechung eines globalen χ2 -Wertes hinausgehen. Bevor aber auf die Details dieser Analysen eingegangen wird, soll noch kurz der Begriff der bedingten Wahrscheinlichkeit rekapituliert werden, denn 4 er bildet die Basis der folgenden Betrachtungen. 1.2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit Ein Patient zeigt ein bestimmtes Symptom (er ist leptosom). Wie groß ist die Wahrscheinlichkeit, dass er durch einen bestimmten psychischen Zustand charakterisiert ist oder an einer bestimmten Krankheit leidet? Dass man von bestimmten Symptomen mit Sicherheit auf bestimmte, zunächst nicht direkt beobachtbare Merkmale schließen kann, ist ein Spezialfall, mit dem man es in den meisten Fällen gerade nicht zu tun hat. Von einem leptosomen Körperbau kann man eben nicht mit Sicherheit auf einen schizoiden Zustand schließen, aber dieser Zustand kann durchaus wahrscheinlichlicher als andere Zustände sein – Näheres findet man durch weitere Analysen und Diagnosen. Gegeben sei aber ein leptosomer Körperbau, – wie groß ist jetzt die Wahrscheinlichkeit eines schizoiden Zustands? Wichtig bei dieser Frage ist, dass man eben nicht mehr einen beliebigen Patienten vor sich hat, sondern einen aus einer Teilmenge aller möglichen Patienten, nämlich einen aus der Teilmenge der leptosomen Personen. Die Wahrscheinlichkeit, dass er auch noch schizoid ist, ergibt sich aus dem Anteil derjenigen Personen, die sowohl leptosom wie auch schizoid sind, am Anteil der leptosomen Personen. Gibt es also nL Leptosome und nLS Personen die leptosom und schizoid sind, so kann man sagen, dass der Anteil P (schizoid unter der Bedingung leptosom) = nLS nL ist. Man schreibt P (schizoid|leptosom) für P (schizoid unter der Bedingung leptosom). Der Punkt ist hier, dass man schon weiß, dass eine Person leptosom ist, ”leptosom” ist das beobachtete Symptom. Man schränkt also die weitere Diagnose auf den Personenkreis mit diesem Merkmal ein. Im Vergleich dazu betrachte man noch die Frage, wie groß denn die Wahrscheinlichkeit ist, dass eine Person schizoid und leptosom ist. Hier geht man nicht von einer Vorinformation (Person ist leptosom) aus, sondern fragt einfach nur nach der Wahrscheinlichkeit der Kombination beider Merkmale. Ist n die Gesamtzahl der Personen, so ist die Wahrscheinlichkeit der Kombination durch P (schizoid und leptosom) = nLS , n nLS ≤ n gegeben, wobei man auch P (schizoid ∩ leptosom) für P (schizoid und leptosom) schreibt. Da die Leptosomen nur eine Teilmenge aller Personen sind, ist nL ≤ n und folglich nLS nLS ≥ , nL n d.h. also bei diesem Beispiel P (schizoid|leptosom) > P (schizoid ∩ leptosom). 5 (1) Betrachten wir noch einmal den obigen Ausdruck: P (schizoid|leptosom) = nLS . nL Der Wert des Quotienten auf der rechten Seite bleibt erhalten, wenn man Zähler und Nenner durch n teilt: nLS/n nLS = . nL nL /n Aber nLS /n war gerade der Ausdruck für die Wahrscheinlichkeit, dass eine Person leptosom und schizoid ist, und nL /n kann als Wahrscheinlichkeit, dass eine zufällig gewählte Person leptosom ist gedeutet werden. Schreibt man also L für das (zufällige) Ereignis, dass eine Person leptosom ist, und S für das ebenfalls zufällige Ereignis, dass eine Person schizoid ist, so kann man P (S|L) = P (L ∩ S) P (L) schreiben. Für beliebige zufällige Ereignisse A und B hat man deshalb die Definition 1.1 Für die zufällige Ereignisse A und B gilt die Beziehung P (A|B) = P (A ∩ B) . P (B) (2) wobei P (A|B) bedingte Wahrscheinlichkeit von A, gegeben B ist. Dabei steht das Zeichen | für ”unter der Bedingung” und ∩ für ”und” (andere Zeichen für ”und” sind & oder ∧). Dies ist die allgemeine Definition für eine bedingte Wahrscheinlichkeit, die man für irgendzwei zufällige Ereignisse A und B anschreiben kann. Man sieht, dass die Ungleichung (1) ganz allgemein gilt: Da notwendig P (B) ≤ 1, folgt für beliebige A und B P (A|B) ≥ P (A ∩ B). (3) Die vorangegangene Plausibilitätsbetrachtung zur Definition von P (A|B) ist intuitiv, weil sie an den bekannten Ansatz, Wahrscheinlichkeiten über relative Häufigkeiten zu definieren anknüpft. Sie suggeriert, dass man die Anzahlen n, nL , nLS kennt, – In Wirklichkeit kennt man diese Anzahlen aber kaum, man wird sie bestenfalls durch Schätzungen ersetzen können. Nicht alle Wahrscheinlichkeiten lassen sich durch relative Häufigkeiten definieren: Wie groß ist die Wahrscheinlichkeit, dass wir in diesem Jahr ”weiße Weihnachten” haben werden, wenn der Prozess der Erderwärmung weiter fortschreitet? Man kann diese Wahrscheinlichkeit kaum durch die Anzahl weißer Weihnachten bei ansteigender Erderwärmung relativ zur Anzahl von Weihnachten überhaupt abbilden. Ein Satz wie ”Wahrscheinlich werden wir alle davon ausgehen, dass es eher unwahrscheinlich ist, dass es überall in Deutschland weiße Weihnachten geben wird” illustriert die Problematik der Definition von Wahrscheinlichkeiten anhand relativer Häufigkeiten. Die Definition (2) basiert also auf dem axiomatischen, Kolmogoroffschen Wahrscheinlichkeitsbegriff. Dass man in empirischen Untersuchungen Wahrscheinlichkeiten u.U. durch relative Häufigkeiten abschätzen kann, bedeutet nicht, dass der Begriff der Wahrscheinlichkeit durch relative Häufigkeiten definiert ist. 6 Aus der allgemeinen Definition folgt sofort P (B|A) = P (A ∩ B) , P (A) denn die Definition der bedingten Wahrscheinlichkeit gilt ja für beliebige zufällige Ereignisse. Multiplikation beider Seiten mit P (A) liefert aber P (A ∩ B) = P (B|A)P (A). Analog dazu liefert P (A|B) = P (A ∩ B)/P (B) den Ausdruck P (A ∩ B) = P (A|B)P (B). Dann folgt aber P (B|A)P (A) = P (A|B)P (B), so dass man die allgemeine Beziehung P (B|A) = P (A|B) P (B) P (A) (4) erhält. Aus ihr folgt unmittelbar, dass im Allgemeinen P (B|A) 6= P (A|B) gilt, wenn P (A) 6= P (B) ist. Ist die (bedingte) Wahrscheinlichkeit, dass ein Patient schizoid ist unter der Bedingung, dass er leptosom ist, gleich .7, so kann man von der Tatsache, dass ein Patient als schizoid diagnostiziert wurde, noch nicht mit der gleichen Wahrscheinlichkeit .7 vermuten, dass er auch leptosom ist1 . P (A|B) und P (B|A) können sich drastisch unterscheiden, wenn nur die Werte von P (A) und P (B) (in der Diagnostik als ’Grundquoten’ bekannt) hinreichend verschieden sind. (2) erlaubt es, den Begriff der stochastischen Unabhängigkeit klar zu fassen, d.h so zu fassen, dass man die Möglichkeit der Unabhängigkeit bzw. der Abhängigkeit anhand gegebener Daten untersuchen kann. Definition 1.2 Sind also A und B irgend zwei zufällige Ereignisse, so heißt A stochastisch unabhängig von B genau dann, wenn P (A|B) = P (A) (5) gilt. Dies heißt einfach, dass die Kenntnis etwa des Symptoms B noch keinerlei Kenntnis über das Merkmal A impliziert, – A tritt unabhängig von B auf. Setzt man diesen Spezialfall in (2) ein, so erhält man P (A|B) = P (A ∩ B) = P (A), P (B) und multipliziert man in dieser Gleichung Zähler und Nenner mit P (B), so erhält man P (A ∩ B) = P (A)P (B). (6) 1 Stellen Sie sich vor, eine Therapeutin erzählt einem befreundeten Therapeuten am Telefon, sie habe einen schizoiden Patienten, und der Therapeut stellt in Gedanken Vermutungen über dessen Körperbau an. 7 Diese Beziehung (”Multiplikationsregel”) gilt dann und nur dann, wenn A und B stochastisch unabhängig sind! Wenn nun A stochastisch unabhängig von B ist, – kann es dann sein, dass B stochastisch abhängig von A ist? Ein Symptom (A) möge unabhängig von einem zu diagnostizierenden Merkmal M vorhanden oder nicht vorhanden sein, M ist also stochastisch unabhängig von A. Kann es also sein, dass dennoch A gehäuft auftritt, wenn M vorliegt, A also stochastisch abhängig von M ist? Dazu betrachtet man allgemein die bedingte Wahrscheinlichkeit P (B|A). Es gelte P (A|B) = P (A), d.h. A sei von B stochastisch unabhängig. Aus (4) folgt dann P (B) P (B|A) = P (A) = P (B), P (A) d.h. die stochastische Unabhängigkeit A’s von B impliziert die stochastische Unabhängigkeit B’s von A. Das Ergebnis kann man auch direkt aus (6) folgern: die Produktregel gilt nur bei stochastischer Unabhängigkeit, und die rechte Seite von (6) ist symmetrisch bezüglich P (A) und P (B). Kann man also von einem beobachteten Merkmal A nicht auf ein anderes Merkmal B schließen, so kann man auch nicht von B auf A schließen2 . Satz der Totalen Wahrscheinlichkeit Es seien A und B irgendzwei zufällige Ereignisse. Das Ereignis A kann zusammen mit B auftreten oder zusammen mit ¬B (B tritt nicht ein), also entweder mit B oder mit ¬B. Das heißt P (A) = P [(A ∩ B) ∪ (A ∩ ¬B)] = P (A ∩ B) + P (A ∩ ¬B). Es ist aber P (A ∩ B) = P (A|B)P (B), P (A ∩ ¬B) = P (A|¬B)P (¬B). Somit muß P (A) = P (A|B)P (B) + P (A|¬B)P (¬B) (7) gelten. Was hier wie eine Spielerei mit Formeln aussehen mag, hat gleichwohl eine große Bedeutung für die Praxis. Man bildet zB eine Stichprobe von Patienten und schaut nach, wie hoch der Anteil der Patienten ist, bei denen eine Therapie erfolgreich ist (das Ereignis A ist eingetreten). Bei der Diskussion des Anteils, dem ja die Wahrscheinlichkeit P (A) entspricht, wird nicht berücksichtigt, dass einige Patienten Patientinnen sind, andere aber Patienten. Einige gehören also hzur Klasse B (weiblich), andere zur Klasse ¬B (nicht weiblich = männlich). Die nähere Diskussion der Daten kann zeigen, dass P (A|B) einen sehr großen Wert hat, sagen wir P (A|B) = .9, dass aber P (A|¬B) = .3 ist. Bei den Frauen ist die Therapie meistens erfolgreich, bei den Männern ist sie meistens nicht erfolgreich. Die Stichprobe enthalte zu 80% Frauen, und nur 20% Männer. Dann ist P (A) = .78 = .9 × .8 + .3 × .2, d.h. im Durchschnitt ist die Therapie zu 78% erfolgreich. Würde man annehmen, dass dieser Befund bei Frauen und Männern gleichermaßen gilt, so würde man 2 Gemeint sind natürlich stochastische Schlüsse! 8 sicherlich einen Fehler begehen. Bei der Interpretation der Daten aus Kontingenztabellen wird auf die Wirkung von Variablen, die zunächst nicht direkt beachtet wurden, zurückgekommen (→ Simpsonsches Paradox). Der Satz (7) läßt sich auf beliebig viele Ereignisse B1 , . . . , Bn verallgemeinern. Zunächst sei daran erinnert, dass B ∪ ¬B stets das sichere Ereignis ist, denn es tritt entweder B oder ¬B ein, und natürlich schließen sich B und negB aus. Allgemein wird man also fordern, dass Bi ∩ Bj = ∅ für i 6= j, dh irgendzwei der Ereignisse B1 , . . . , Bn können nicht gleichzeitig auftreten (∅ ist das Zeichen für das unmögliche Ereignis). Darüber hinaus muß B1 ∪ · · · ∪ Bn = Ω gelten, wobei Ω für das sichere Ereignis steht. Dann hat man den allgemeinen Satz der Totalen Wahrscheinlichkeit P (A) = P (A|B1 )P (B1 ) + · · · + P (A|Bn )P (Bn ) = n X P (A|Bi )P (Bi ). (8) i=1 Anwendung Die folgende Betrachtung wird erst in Abschnitt 2.9 (Simpsonsches Paradox) relevant, wenn die hier hergeleiteten Formeln (11) und (12) benötigt werden. Kontingenztabellen können mehr als 2-dimensional sein – so kann ein Faktor die Therapieform (A oder B) sein, ein zweiter das Geschlecht, und ein dritter der Erfolg (d.h. eine Therapie kann erfolgreich oder nicht erfolgreich sein). Man kann dann die Wahrscheinlichkeit eines ”Erfolges” (A) betrachten unter der Bedingung, dass die Therapie B bei einer Patientin (C) angewendet wurde, also P (A|B, C). Die Definition der bedingten Wahrscheinlichkeiten überträgt sich auf diesen Fall: P (A|B, C) = P (A ∩ B ∩ C) . P (B ∩ C) (9) Natürlich kann man dann auch den Fall betrachten, dass A unter der Bedingung B ∩ ¬C auftritt, und hat dann P (A|B, ¬C) = P (A ∩ B ∩ ¬C) . P (B ∩ ¬C) (10) Wie beim Satz der Totalen Wahrscheinlichkeit kann man nun die Wahrscheinlichkeit von A unter der Bedingung B betrachten, wobei B zusammen mit C oder mit ¬C auftritt. Es ist P (A|B) = = = = P (A ∩ B) P [(A ∩ B ∩ C) ∪ (A ∩ B ∩ ¬C)] = P (B) P (B) P (A ∩ B ∩ C) P ((A ∩ B ∩ ¬C) + P (B) P (B) P (A|B ∩ C)P (B ∩ C) P (A|B ∩ ¬C)P (B ∩ ¬C) + P (B) P (B) P (A|B ∩ C)P (C|B)P (B) P (A|B ∩ ¬C)P (¬C|B)P (B) + P (B) P (B) so dass man P (A|B) = P (A|B ∩ C)P (C|B) + P (A|B ∩ ¬C)P (¬C|B) 9 (11) erhält, weil sich P (B) ja herauskürzt. Auf analoge Weise erhält man P (A|¬B) = P (A|¬B ∩ C)P (C|¬B) + P (A|¬B ∩ ¬C)P (¬C|¬B). (12) Man beachte noch einmal, dass es sich bei den Gleichungen (11) und (12) um Anwendungen des Satzes der Totalen Wahrscheinlichkeit handelt, obwohl links nicht wie in (8) einfach nur P (A) steht, sondern die bedingten Wahrscheinlichkeiten P (A|B) und P (A|¬B) stehen. Es geht eben um die dritte Einflußgröße C, die unter der Bedingung B oder ¬B auf A einwirken kann. Anwendung auf Kontingenztabellen Man habe nun eine Kontingenztabelle mit den ”Faktoren” A und B vorliegen. A sei Körperbau, B sei mentaler Zustand, und es gebe I Stufen A1 bis AI für A, die also bestimmte Körperbautypen sind, und J Stufen B1 bis BJ für die verschiedenen mentalen Zustände, die betrachtet werden. Unter bestimmten Erhebungsbedingen sind Ai und Bj , i = 1, . . . , I und j = 1, . . . , J zufällige Ereignisse, wenn nämlich zufällig eine Person gewählt wird und man dann diagnostiziert, dass sie den Körperbautyp Ai und den mentalen Zustand Bj hat. Man ist daran interessiert, zu wissen, ob es eine zumindest stochastische Abhängigkeitsbeziehung zwischen dem Körperbau und dem mentalen Zustand gibt. Gibt es sie nicht, so gilt P (Bj |Ai ) = P (Bj ) für alle i, j (13) und damit auch P (Ai |Bj ) = P (Ai ) für alle i, j. Nach der Produktregel bedeutet dies, dass P (Ai ∩ Bj ) = P (Ai )P (Bj ) für alle i, j (14) Natürlich kennt man die Wahrscheinlichkeiten P (Ai ), P (Bj ), P (Ai ∩ Bj ) nicht, man muß sie also aus den Daten, d.h. aus einer Tabelle schätzen. Es läßt sich zeigen3 , dass die relativen Häufigkeiten, die sich aus den Daten der Tabelle berechnen lassen, akzeptable Schätzungen sind. Man kann zunächst die Randsummen berechnen: J I I X J X X X ni+ = nij , n+j = nij , n = n++ = nij (15) j=1 i=1 i=1 j=1 ni+ ist die Häufigkeit, mit der die Stufe Ai insgesamt beobachtet wurde, n+j ist die Häufigkeit, mit der die Stufe Bj insgesamt beobachtet wurde, und n ist die Gesamtzahl der Fälle. Man erhält daraus die Schätzungen P̂ (Ai ) = ni+ , n P̂ (Bj ) = n+j , n P̂ (Ai ∩ Bj ) = nij . n (16) Für die bedingten Wahrscheinlichkeiten P (Ai |Bj ) und P (Bj |Ai ) erhält man P̂ (Ai |Bj ) = nij , n+j P̂ (Bj |Ai ) = nij . ni+ (17) Man mache sich noch einmal klar, dass diese Ausdrücke genau die Definitin der bedingten Wahrscheinlichkeiten entsprechen: für P (Ai |Bj ) fokussiert man zunächst auf die Anzahl n+j der Fälle, auf die Bj zutrifft, und setzt dann die Anzahl nij , auf die sowohl Ai wie auch Bj zutreffen, dazu in Beziehung: P̂ (Ai |Bj ) = nij /n+j , etc. 3 Man zeigt dies durch Anwendung der Maximum-Likelihood-Methode, worauf an dieser Stelle aber nicht eingegangen werden muß. 10 Man bemerke auch, dass man diese bedingten Wahrscheinlichkeiten für jede Kombination (Ai , Bj ) von Stufen betrachten kann, also nicht nur global P (A|B) oder P (B|A) betrachtet. Man kann also die bedingten Wahrscheinlichkeiten P (Ai |Bj ) und P (Bj |Ai ) für alle i, j aus den Daten schätzen. Diese Schätzungen sind mit Stichprobenfehlern behaftet, und es ist die Frage, ob sie mit der Nullhypothese, dass nämlich die der stochastischen Unabhängigkeit von Ai und Bj verträglich sind. Dazu berechnet man die Schätzungen für die nij unter der Annahme, dass Ai und Bj stochastisch unabhängig voneinander sind. Nach der Produktregel muß dann P (Ai ∩ Bj ) = P (Ai )P (Bj ) gelten. Setzt man die entsprechenden relativen Häufigkeiten ein, so sollte bei Gültigkeit von H0 (globale stochastische Unabhängigkeit) nij ni+ n+j n̂ij ≈ = (18) n n n n gelten, wobei ≈ für ”approximativ” steht, denn eine exakte Gleichheit wird man wegen der üblichen Stichproben”fehler” nicht erwarten können, sondern eben nur eine angenäherte, und n̂ij ist die Häufigkeit für das Auftreten von (Ai , Bj ), die man bei Unabhängigkeit der Merkmale erwarten kann. Multipliziert man diese Gleichung mit n, so erhält man für die unter H0 erwartete Häufigkeit der Merkmalskombination (Ai , Bj ) ni+ n+j . (19) n̂ij = n Damit sind alle Vorbereitungen getroffen worden, die notwendig sind, um sich den log-linearen Analysen von Häufigkeitstabellen zuwenden zu können. 2 2.1 Log-lineare Analysen Der Ansatz Um H0 zu testen, muß man nur die tatsächlichen Häufigkeiten nij mit den unter H0 erwarteten n̂ij , wie sie in (19) definiert wurden, vergleichen. Dieser Vergleich geschieht mit dem üblichen χ2 -Test. Ergibt sich kein signifikanter χ2 -Wert, so ist man fertig – es gibt keine Abhängigkeiten zwischen den Stufen von A und den Stufen von B. Ist der χ2 -Wert aber signifikant, so sagt einem dieser Wert noch nicht, zwischen welchen Ai und Bj eine Abhängigkeit besteht. Um dies festzustellen, müssen andere Überlegungen angestellt werden. Hierzu werde ein kleiner Seitenblick auf die Varianzanalyse getan. Man habe ein 2-dimensionales Design, man habe also zwei Faktoren, und man ist an der Existenz von Haupt- und Wechselwirkungseffekten interessiert. Hierzu stellt man ein allgemeines Modell auf, demzufolge für einen beliebigen Messwert xij (Stufe Ai des Faktors A und Stufe Bj des Faktors B) die Zerlegung xij = µ + αi + βj + γij + eij (20) gilt. αi und βj sind die Haupteffekte von A udn B und γij repräsentiert eine Wechselwirkung zwischen den beiden Faktoren. Diese Größen werden als als deterministische Größen betrachtet, sie sind also keine zufälligen Größen, nur der 11 Fehler eij ist zufällig. Nimmt man vernünftigerweise4 an, dass der Fehler eij den Erwartungswert 0 hat, so hat man E(xij ) = E(µ + αi + βj + γij ) + E(eij ) = µ + αi + βj + γij . (21) Von Null verschiedene αi , βj und γij bewirken Abweichungen vom allgemeinen Mittelwert, der hier durch µ repräsentiert wird. Mit dem F -Test wird dann geprüft, ob die αi , βj und γij gleich Null sind oder nicht. Der hier interessierende Aspekt von (20) ist die Zerlegung von xij in die einzelnen Komponenten, die durch die verschiedenen Stufen der unabhängigen Variablen erzeugt werden (oder auch nicht). In einer Häufigkeitstabelle hat man aber eben Häufigkeiten nij und keine Messwerte xij , und die Frage, ob man für die nij ein lineares Modell wie (20) ansetzen kann, wurde schon in anderem Zusammenhang diskutiert. Für Häufigkeiten gilt nij ≥ 0, sie können nicht negativ werden. Dieser Sachverhalt verbietet einen direkten Ansatz, wie er durch (20) dargestellt wird. Bei der Poisson-Regression ist man deshalb dazu übergegangen, nicht den Erwartungswert λ als lineare Funktion der unabhängigen Variablen anzusetzen, sondern statt dessen den Logarithmus von λ. Es liegt also nahe, diesen Ansatz auch auf die Häufigkeiten nij anzuwenden: nij = eµ+µi +µj +µij +εij (22) Hierin sind µ, µi , µj und µij ”freie” – also aus den Daten zu schätzende und nicht vorher festgelegte – Parameter, die positiv oder negativ sein dürfen, und εij ist ein ”Fehler”. Der Ausdruck im Exponenten ist völlig analog zum varianzanalytischen Ansatz gebildet worden, allerdings unterscheidet sich die Interpretation von der bei der ANOVA. Während bei der ANOVA die Parameter additiv (einschließlich des Wechselwirkungsterms µij ) in die Modellierung eines Messwerts xij eingehen, wirken sie hier, also bei Häufigkeiten, multiplikativ : nij = eµ+αi +βj +γij +εij = eµ eαi eβj eγij eεij . (23) Es gibt weitere Unterschiede zum ANOVA-Ansatz, wie sich in den folgenden Betrachtungen zeigt. Aus (19) erhält man den Ausdruck5 log n̂ij = log ni+ + log n+j − log n. (24) Dieser Ausdruck steht in Analogie zu (20) für Messwerte: − log n entspricht µ, log ni+ entspricht αi , und log n+j entspricht βj . Der Wechselwirkungsterm γij tritt Konsequenz der Annahme, dass H0 gilt, nicht auf. Es liegt demnach nahe, für den Fall der stochastischen Abhängigkeit von Ai und Bj einen zusätzlichen Term in (24) einzuführen. Setzt man also µ = − log n µi+ = log ni+ µ+j log n+j , 4 Wäre E(e ) = ē ij ij 6= 0, könnte man ihn in γij ”absorbieren”, dh der Wechselwirkungsterm ′ = γ + ē , und nach Umbenennung von γ ′ in γ hieße dann γij ij ij ij hätte man wieder ein Modell ij mit E(eij ) = 0. Ein systematischer Fehler E(eij ) 6= 0 ist eigentlich kein ”Fehler”, sondern eben ein Teil der Wechselwirkung. 5 Zur Erinnerung: log(xy) = log x + log y, log(x/y) = log x − log y. 12 und benennt mit µij eine Größe, die die Assoziation zwischen Ai und Bi widerspiegelt, so kann man ganz allgemein log nij = µ + µi+ + µ+j + µij (25) schreiben. Hier steht links nicht mehr log n̂ij , sondern log nij , denn es wird die beobachtete Anzahl nij vollständig spezifiziert; vollständig deshalb, weil µij hier eine unbekannte Größe ist, die eine mögliche Assoziation zwischen Ai und Bj abbildet. Nur die µi+ und µ+j liegen fest, denn sie sind durch die Randhäufigkeiten gegeben. Darüber hinaus fehlt in (25) der Fehlerterm εij , der im Ansatz (22) noch aufgeführt worden war, um die Analogie zur ANOVA vollständig erscheinen zu lassen. Der Punkt ist aber, dass man in einer 2-dimensionalen Tabelle nur eine Kombination (Ai , Bj ) von Zeilen- und Spaltenkategorien hat und die spezifische Interaktion γij bzw. µij und der Fehler εij nicht unabhängig voneinander geschätzt werden können, – εij wird deshalb in γij bzw. µij ”absorbiert” und taucht deshalb im Folgenden nicht mehr auf. Da µij ein freier Parameter ist, erklärt der Ansatz (25) die Daten, also die nij , perfekt. Der Ansatz repräsentiert ein Modell für die nij , das mit freien Parametern, hier den µij , ”gesättigt” ist; (25) heißt deshalb auch das saturierte Modell. Die µij kann man immer finden, denn da µ, µi+ und µ+j ja ebenso wie die nij gegeben sind, muß man nur die Differenz log nij − (µ + µi+ + µ+j ) = µij bilden, und im Allgemeinen wird man µij 6= 0 finden, – denn die nij enthalten ja, wie oben ausgeführt wurde, Stichproben”fehler”, so dass auch im Falle stochastischer Unabhängigkeit µij 6= 0 sein wird. Hat man also ein signifikantes χ2 für die Tabelle gefunden, so kann man davon ausgehen, dass zumindest einige µij tatsächlich und nicht nur zufällig von Null verschieden sind, und die gilt es herauszufinden. Bevor diese Frage angegangen wird, soll noch eine Konsequenz von (25) aufgezeigt werden. Der Antilogarithmus von log nij ist nij = eµ+µi+ +µ+j +µij . (26) Die rechte Seite ist eine Parametrisierung der nij , d.h eine bestimmte Art und Weise, die nij durch theoretische Größen zu ”erklären”. Die wirkliche Erklärung liegt in dem freien Parameter µij , der eine mögliche Assoziation, also Interaktion zwischen den Stufen Ai und Bj abbildet. Man sieht, wie insbesondere µij auf die Häufigkeit nij einwirkt: nij = eµ+µi+ +µ+j eµij , d.h. der Interaktionsterm wirkt über den Faktor eµij (und damit natürlich auch auf die Randsummen ni+ und n+j ). Für µij < 0 ist eµij < 1 und die Wechselwirkung wirkt verringernd auf nij ein, und für µij > 1 ist eµij > 1 und die Wechselwirkung wirkt vergrößernd auf nij . Ist also Ai ein bestimmter Körperbautypus und ist Bj ein bestimmter mentaler Zustand, so bedeutet µij 6= 0, dass es einen wie auch immer gearteten Zusammenhang zwischen Ai und Bj gibt. Welcher Art dieser Zusammenhang ist, ist noch unklar, aber µij 6= 0 besagt zunächst einmal, dass es überhaupt einen Zusammenhang gibt. Hat man die Existenz eines solchen Zusammenhanges gesichert, so lohnt es sich auch, weitere Forschungen über die 13 Art des Zusammenhangs anzustellen, – hier etwa über Stoffwechselprozesse, die den Leptosomen schlank sein lassen und andererseits die häufig zu beobachtende Introvertiertheit bedingen. Es sei Pij die Populationswahrscheinlichkeit, eine Person mit der Merkmalskombination P (Ai , Bj ) zu finden. P̂ij = nij /n ist eine Schätzung für Pij . Es war aber n = i,j nij , und mit Bezug auf (26) hat man n= J I X X eµ+µi+ +µ+j +µij , i=1 j=1 so dass man Pij = P erhält. eµ+µi+ +µ+j +µij µ+µr+ +µ+s +µrs r,s e (27) Die bedingte Wahrscheinlichkeit eines bestimmten mentalen Zustands, gegeben ein bestimmter Körperbautypus, ist P (Bj |Ai ) = d.h. nij eµ+µi+ +µ+j +µij eµ+µi+ +µ+j +µij nij = P µ+µi+ +µ+k +µik = = µ+µi+ P µ+k +µik , ni+ ni+ e ke ke eµ+j +µij P (Bj |Ai ) = P µ +µ . +k ik ke (28) Die Größe µij ist also ein Parameter einer Wahrscheinlichkeitsverteilung. Um die Frage der Schätzung der freien Parameter anzugehen, die ja benötigt werden, um herauszufinden, welche Abhängigkeiten existieren, müssen Fragen der Stichprobenerhebung geklärt werden. Diese werden im folgenden Abschnitt behandelt. 2.2 2.2.1 Erhebungsweisen Das produkt-multinomiale Schema Dieses Schema ist dem einer Varianzanalyse analog: es gibt eine (oder mehrere) unabhängige Variable und verschiedene Ausprägungen einer abhängigen Variablen. Eine Gruppe von Vpn wird diesen Ausprägungen - Stufen - zugeteilt und es wird bestimmt, welche Ausprägung der abhängigen Variablen sich bei ihr findet. Im Unterschied zur VA wird aber nicht ein Meßwert erhoben, denn die Ausprägung der abhängigen Variablen ist ja nur kategorial. Schlußfolgerungen über die Wirkung der unabhängigen Variablen sollen über die Häufigkeiten, mit denen die Ausprägungen der abhängigen Variablen auftreten, erreicht werden. Das Schema entspricht dem der Tabelle 1: Es gibt I Faktorstufen und J Ausprägungen bzw. Kategorien für die abhängige Variable. Die Randsummen ni+ , i = 1, · · · , I werden dabei vom Experimentator/Planer der Untersuchung festgelegt. Die Häufigkeiten nij in der i-ten Zeile sind jeweils multinomial verteilt: p(ni1 , · · · , niJ ) = I Y ni+ ! ni1 niJ Pi1 · · · PiJ n !n ! · · · n ! iJ i=1 i1 i2 14 (29) Tabelle 1: Produkt-multinomiales Schema Faktorstufen 1 2 .. . n11 n21 Reaktion n12 · · · n22 · · · .. . n1J n2J Σ n1+ n2+ .. . I nI1 nI2 ··· nIJ nI+ Unter der Hypothese H0 : P1j = P2j = · · · = PIj , für alle j (30) ist die erwartete Häufigkeit n̂ij = ni+ Pij in der der Zelle (i, j) der Tafel 1 durch n̂ij = ni+ n+j n++ (31) gegeben. (ni+ ist vorgegeben!). Beispiel 2.1 Es ist bekannt, dass die Fokussierung der Aufmerksamkeit auf bestimmte Aspekte eines Reizmusters die Klassifikation des Musters beeinflußt. So kann die Fokussierung auf ein irrelevantes Merkmal die Wahrscheinlichkeit einer korrekten Klassifikation verändern, und zwar in Abhängigkeit von der SOA (Stimulus Onset Asynchrony); dies ist die Zeitdauer zwischen der Darbietung eines Reizes und eines Maskierungsreizes. Die unabhängige Variable sei der Wert der SOA, die ”Reaktion” sei die Entscheidung für ein bestimmtes Muster Mi , i = 1, . . . , 4, wobei das tatsächlich gezeigte Muster stets das gleiche ist: für jede SOA wird das ReizTabelle 2: Klassifikation und SOA SOA 30 ms 40 ms 50 ms Σ Reaktion (= Muster) M1 M2 M3 M4 17 20 17 16 13 16 20 21 11 15 18 26 41 51 55 47 Σ 70 70 70 210 muster also genau siebzigmal gezeigt; zu entscheiden ist, ob sich die Verteilungen der Antworten pro SOA unterscheiden. 2.2.2 Das multinomiale Schema Hier werden Klassen von Kategorien (unabhängige Variablen, Faktoren im Sinne der VA) definiert, dann wird eine Stichprobe mit festem Umfang ausgewählt, die 15 dann nach Maßgabe des Vorhandenseins einer spezifischen Kategorienkombination aufgeteilt wird. Beispiel 2.2 Alle Insassen einer Reihe von psychiatrischen Landeskrankenhäusern werden (i) bezüglich ihres Körperbautyps und (ii) bezüglich ihrer psychischen Erkrankung klassifiziert. Es ergaben sich die folgenden Daten (Westphal (1931)) Mit ”erw.” werden die unter der Annahme, dass Körperbau und Erkrankung unabTabelle 3: Körperbau und psychische Erkrankung Erkrankung Typ pyknisch erw. athletisch erw. leptosom erw. dysplastisch erw. atypisch erw. man. dep. Epilepsie Schizophr. 879 282 91 237 261 549 15 170 115 123 1361 83 312 435 262 378 608 444 187 165 136 1505 717 1085 884 911 2632 2114 550 652 450 471 5233 nij n̂ij nij n̂ij nij n̂ij nij n̂ij nij n̂ij Σ Σ 1679 1410 3271 1009 730 8099 χ2 = 2641.56, df = 8, p = .000 hängig voneinander sind, erwarteten Häufigkeiten n̂ij bezeichnet; die Differenzen zwischen nij und n̂ij legen die Existenz von Abhängigkeiten nahe; der gefundene χ2 -Wert ist hochsignifikant. In jedem Fall ist die Verteilung der Häufigkeiten in den Zeilen der Tabelle wieder multinomial. Im Unterschied zum produkt-multinomialen Schema liegen aber die Randhäufigkeiten nicht fest. 2.2.3 Das Poisson-Schema In Beispiel 2.2 ist die Anzahl der zu beobachtenden Personen vor der Untersuchung festgelegt worden, denn es sollten ja alle Patienten klassifiziert werden. Damit liegt die Gesamtzahl fest. Die Zeit, bis alle Patienten beobachtet wurden, ist damit nicht festgelegt. Umgekehrt kann man die Zeitdauer festlegen und dafür die Anzahl der Personen offen lassen. Diese Anzahl wird dann eine zufällige Veränderliche. Man könnte etwa alle Neuzugänge in die Landeskrankenhäuser für eine bestimmte Zeitdauer - etwa ein Jahr - nach ihrem Körperbau und der Art ihrer Erkrankung klassifizieren. Da 16 die einzelnen Personen unabhängig voneinander in ein Krankenhaus eingeliefert werden, kann man annehmen, dass die Häufigkeiten Poisson-verteilt sind, d.h. n P (K = nij |λij ) = e−λij λijij , nij ! nij = 0, 1, 2, . . . (32) λij ist der Parameter für Patienten mit dem Körperbautypus Ai und dem mentalen Zustand Bj . Für jede Zelle der Tabelle hat man damit einen freien Parameter λij – und damit würde man nichts erklären, da man ja nur die Daten paraphrasieren würde, statt der nij würde man nun λij betrachten. Die interessante Frage wäre dann, ob es zwischen den λij eine Beziehung gibt, die eine systematische Beziehung zwischen den Ai und den Bj reflektiert. Man könnte λij = λi· für alle j postulieren, d.h. die Häufigkeitsverteilungen würden nur von der Stufe Ai , nicht aber von den Bj abhängen. Dann würde man aber für eine gegebene Stufe Ai die jeweils gleichen Häufigkeiten für die verschiedenen Bj vorhersagen, d.h. die die ni1 , ni2 , . . . , niJ sollten sich nur zufällig voneinander unterscheiden. Wenn diese Hypothese im Lichte der Daten als unwahrscheinlich erscheint, aber H0 (stochastische Unabhängigkeit) angenommen wird, kann man λij = λi+ λ+j λ++ (33) postulieren. λi+ ist der Poisson-Parameter für die Randhäufigkeit von Ai , und λ+j ist der Parameter für die Randhäufigkeit von Bj , λ++ ist der Poisson-Parameter für das Gesamt-n. λij setzt sich also multiplikativ (i) aus einem für Ai und (ii) einem für Bj spezifischen Faktor zusammen. Diese Hypothese heißt multiplikative Hypothese oder multiplikatives Poisson-Modell. Motivation für (33): Eine Motivation für diese Annahme ergibt sich zunächst aus der allgemeinen Definition der Kovarianz zweier zufälliger Veränderlicher X und Y : Kov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ). Im Falle der stochastischen Unabhängigkeit gilt,wie sich allgemein zeigen läßt, E(XY ) = E(X)E(Y ), so dass für den Fall der stochastischen Unabhängigkeit Kov(X, Y ) = 0 folgt. Sind die Randhäufigkeiten ni+ und n+j stochastisch unabhängig, weil die Ai und Bj stochastisch unabhängig sind, so gilt also für den Erwartungswert von ni+ n+j E(ni+ n+j ) = E(ni+ )E(n+j ) = λi+ λj+ , denn E(ni+ ) = λi+ , E(n+j ) = λ+j . Weiter ist der Erwartungswert einer Summe von stochastisch unabhängigen zufälligen Veränderlichen gleich der Summe der entsprechenden Erwartungswerte: E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ), und im Falle von Poisson-Variablen hat man dann insbesondere λ++ = λ11 + · · · + λIJ . 17 (34) λ++ entspricht dem erwarteten Wert von n. (33) entspricht demnach dem Ausdruck n̂ij = ni+ nj+ /n für die Hypothese der Unabhängigkeit der Kategorien Ai und Bj . Der Wert der Parameter λij hängt natürlich von der gewählten Zeitdauer der Beobachtung ab. Satz 2.1 Gemäß der Unabhängigkeitshypothese gilt n̂ij = ni+ n+j /n++ . Ist das Erhebungsschema 1. das Poisson-Schema, so ist diese Hypothese äquivalent dem Modell (19), ohne weitere Nebenbedingungen; 2. das produkt-multinomiale Schema, so ist die Hypothese äquivalent dem Modell (19) mit der Nebenbedingung X A B ni+ = (35) eµ+µi +µj , j = 1, · · · , J. j 3. das multinomiale Schema, so ist die Hypothese äquivalent zu (19) mit der Nebenbedingung X A B n= eµ+µi +µj . (36) i,j Beweis: Vergl. Fahrmeir und Hamerle (1984), p. 480. Spricht man also vom log-linearen Unabhängigkeitsmodell, so müssen die mit dem jeweilig betrachteten Schema einhergehenden Restriktionen berücksichtigt werden. 2.3 Parameter, Logits und Kreuzproduktverhältnisse. Der Einfachheit halber sei J = 2. Man kann dann die Logits log p(B1 |Ai ) ni1 = log p(B2 |Ai ) ni2 betrachten. Für die nij gelte das Modell (??). Es werde für den Augenblick angenommen, dass die Hypothese der Unabhängigkeit gilt, so dass die Interaktionsterme µAB ij alle verschwinden. Eingesetzt ergibt sich log ni1 B A B B B = µ + µA i + µ1 − µ − µi − µ2 = µ1 − µ2 ni2 (37) Die Hypothese der Unabhängigkeit impliziert also, dass die Logits für alle i identisch sind. Die Betrachtung der Odd-Ratios erlaubt eine Interpretation der Parameter des loglinearen Modells. Es sei außerdem (der Einfachheit halber) I = 2. Das Kreuzproduktverhältnis für diese Tabelle ist Θ= π11 π22 π12 π21 18 Man findet log Θ = log n11 + log n22 − log n12 − log n21 B AB A B AB = µ + µA 1 + µ1 + µ11 + µ2 + µ2 + µ22 B AB A B AB −(µ + µA 1 + µ2 + µ12 ) − (µ + µ2 + µ1 + µ21 ) AB AB AB = µAB (38) 11 + µ22 − µ12 − µ21 P AB P AB AB Es gelten die Nebenbedingungen i µij = = 0, und µAB 11 = µ22 = j µij AB −µAB 12 = −µ21 . Deshalb folgt log Θ = 4µAB 11 (39) Andererseits ist Θ der Assoziationsparameter der 2×2-Tabelle. Gilt die Hypothese der Unabhängigkeit, so ist Θ = 1 und log Θ = 0. Diese Bedingung ist genau dann erfüllt, wenn in (39) die Bedingung µAB 11 = 0 erfüllt ist. 2.4 Tests für die Güte der Anpassung Mit dem Pearsonschen χ2 -Test kann die Überzufälligkeit der gefundenen Assoziationen zwischen den Zeilen- und Spaltenkategorien geprüft werden; dies gilt auch für höherdimensionale Tabellen. Allgemein prüft man mit diesem Test, ob die Wahrscheinlichkeiten einer Multinomialverteilung bestimmten Hypothesen genügen. Für eine 2-dimensionale Tabelle hat man X2 = X (nij − n̂ij )2 , n̂ij i,j df = (I − 1)(J − 1) (40) Für hinreichend große Stichproben gilt X 2 ∼ χ2 ,d.h. die Verteilung von X 2 entspricht dann der einer χ2 -Verteilung. Ein allgemeiner Ansatz, die Nullhypothese H0 gegen eine Alternativhypothese H1 zu testen, besteht darin, einen Likelihood-Ratio-Test zu konstruieren. Dazu wird die maximale Likelihood der Daten (i) unter H0 und (ii) unter H1 bestimmt und dann der Quotient Λ dieser maximalen Likelihoods berechnet. Wilks (1935, 1938) hat gezeigt, dass dann die Größe def G2 = −2 log Λ ∼ χ2 , H0 , n→∞ (41) erfüllt, d.h. −2 log Λ ist für hinreichend großes n approximativ wie χ2 unter der Nullhypothese verteilt. G2 heißt auch Likelihood-Ratio-χ2 -Statistik. Für das multinomiale Schema gilt insbesondere X ni+ n+j G2 = −2 log Λ = 2 nij log(nij /n̂ij ), n̂ij = (42) n++ i,j Die Parameter sind im allgemeinen Fall durch die πij gegeben, sie unterliegen der Nebenbedingung X πij = 1 i,j 19 Deswegen können IJ − 1 von ihnen frei gewählt werden, das IJ-te liegt dann fest. Damit ist die Anzahl der Freiheitsgrade gleich IJ − 1. Unter H0 gilt aber πij = πi+ π+j P P Da wiederum i πi+ = j π+j = 1 gilt, können I − 1 Parameter πi+ und J − 1 Parameter π+j frei gewählt werden, also insgesamt I−1+J −1. Nun ist G2 aber eine Differenz von approximativ χ2 -verteilten Größen; die Anzahl der Freiheitsgrade für G2 ist dann durch IJ − 1 − (I − 1 + J − 1) = IJ − I − (J − 1) = (I − 1)(J − 1). gegeben. X 2 konvergiert im allgemeinen schneller als G2 gegen die χ2 -Verteilung; für n/(IJ) < 5 ist die Approximation der Verteilung für G2 durch die χ2 -Verteilung eher schlecht. Alle Betrachtungen übertragen sich auf den höherdimensionalen Fall. 2.5 Verallgemeinerung: 3-dimensionale Tafeln Bekanntlich sind Korrelationen nur mit Vorsicht zu interpretieren: das bekannte Beispiel über den Zusammenhang zwischen Alkoholkonsum in den USA und der Häufigkeit, mit der dort der Priesterberuf gewählt wird, lehrt, dass erst die Betrachtung weiterer Variablen zu einer sinnvolleren Interpretation führt. Dieser Sachverhalt muß auch bei der Diskussion von Kontingenztabellen berücksichtigt werden. So kann ein Zusammenhang zwischen zwei Variablen durch die Wirkung einer oder mehrerer nicht berücksichtigter Variablen verdeckt werden, oder er existiert nur scheinbar. Zur Verdeutlichung werden jetzt 3-dimensionale Tabellen betrachtet. Die drei Variablen (Klassen von Kategorien) seien A, B und C, mit jeweils I, J und K Kategorien Ai , Bj und Ck . nijk sei die Häufigkeit in der (i, j, k)-ten Zelle. Die Wahrscheinlichkeit, eine Beobachtung in der (i, j, k)-ten Zelle zu machen, sei Pijk . Ein Beispiel ist die Tabelle 4, in der Daten zur Verhängung der Todessrafe in den USA zusammengefasst wurden (Radelet, 1981), bei der jeder Faktor allerdings nur zwei Stufen hat. Tabelle 4: Verhängung der Todestrafe in den USA Angeklagte weiß schwarz Opfer weiß schwarz weiß schwarz Todesstrafe ja nein 19 132 0 9 11 52 6 97 Anteil (ja) .126 .000 .175 .058 Aus der 3-dimensionalen Häufigkeitstabelle lassen sich auf verschiedene Weise 2-dimensionale Tabellen bilden: 20 1. Partialtabellen Dies sind Tabellen, die durch einen ”Schnitt” durch die 3dimensionale Tabelle entstehen, der durch eine Stufe einer der drei Faktoren (Variablen, Klassen) entsteht. Man hält z.B. Ai fest und betrachtet für diese Stufe die Tabelle B × C. In den Zellen dieser Tabelle stehen die Häufigkeiten ni;jk mit i = konstant. Die Abhängigkeiten in einer Partialtabelle heißen ”partielle Assoziationen”. Tabelle 5: Partialtabellen Opfer: weiss Todesstrafe Täter + weiß 19 132 schwarz 11 52 Σ 30 184 Opfer: schwarz Todesstrafe Täter + weiß 0 9 schwarz 6 97 Σ 6 106 Σ 151 63 214 Σ 9 103 112 2. Marginaltabellen Tabellen dieser Art entstehen, wenn über einen Faktor (Variable, Klasse) aggregiert, d.h. summmiert wird. Summiert man über alle Stufen von A, so entsteht P wieder eine B × C-Tabelle, in deren Zellen die Häufigkeiten n+jk = i nijk stehen. Die Abhängigkeiten in einer Marginaltabelle heißen ”marginale Assoziationen”. Die Assoziationen in Marginaltabellen können sich sehr von denen in Partialtabellen unterscheiden; dieses Phänomen ist als Simpsons Paradoxon bekannt, das wegen seiner praktischen und grundsätzlichen Bedeutung in Abschnitt 2.9 ausführlich diskutiert wird. Bevor man eine Marginaltabelle betrachtet, muß die Frage der Aggregierbarkeit diskutiert werden; hierauf wird später (Abschn. 2.9) noch ausführlich eingegangen. Beispiel 2.3 Es soll die Hypothese, dass in den USA des Mordes angeklagte Schwarze häufiger zum Tode werden als des Mordes angeklagte Weiße, – Tabelle 6 enthält die Daten. Demnach ist Tabelle 6: Verhängung der Todesstrafe in den USA – Aggregation über Opfer Angeklagte weiß schwarz Σ Todesstrafe ja nein 19 141 17 149 36 290 Σ 160 166 326 19 17 = .135, P (T S|s) = = .114, 141 149 so dass es den Anschein hat, dass Schwarze weniger häufig zum Tode verurteilt werden als Weiße (T S = Todesstrafe, w weiß, s schwarz). Betrachtet man noch den Odds-Ratio als Assoziationsmaß, so findet man 19 × 149 Θ= = 1.181 141 × 17 P (T S|w) = 21 Es ist zwar Θ 6= 1, so dass eine Abhängigkeit existieren könnte. Andererseits weicht der Wert nicht stark von 1 ab, so dass der Wert von Θ auch mit der Hypothese der Unabhängigkeit verträglich sein könnte. Nach (39) ist log Θ = 4µAB 11 , und log 1.181 ≈ .072. In bezug auf (41) entspricht dies G2 = .072 bei df = (I − 1)(J − 1) = 1 Freiheitsgraden, und dieser Wert ist, wie auch der ”klassische” χ2 Wert χ2 = .22, nicht signifikant (Wahrscheinlichkeit eines solchen Wertes: p = .6379.) Es wird später gezeigt werden, dass der durch Tabelle 6 suggerierte Sachverhalt (kein racial bias) nicht ganz so einfach ist wie er sich nach diesem Test darstellt. Die log nijk lassen sich stets in der Form eines saturierten Modells darstellen: B C AB AC BC ABC log nijk = µ + µA i + µj + µk + µij + µik + µjk + µijk (43) B C Die Parameter µA i , µj und µk repräsentieren wieder ”Haupteffekte”, die durch die Randsummen gegeben sind, die je nach Erhebungsdesign vorgegeben sind oder nicht. Parameter wie µAB bilden Wechselwirkungseffekte ab, die wie schon bei ij 2-dimensionalen Tafeln die oft wirklich interessierenden Effekte sind. Sie sind wie folgt definiert: µ = 1 X log nijk IJK (44) 1 X log nijk − µ JK (45) 1 X log nijk − µ IK (46) 1 X log nijk − µ IJ i,j (47) i,j,k µA i = j,k µB j = i,k µC k = µAB ij = µAC ik = µBC jk = µABC ijk 1 X B log nijk − µA I − µj K k 1X C log nijk − µA i − µk − µ J j 1X C log nijk − µB j − µk − µ I i B C AB AC BC = log nijk − µA i − µj − µk − µij − µik − µjk (48) (49) (50) (51) Man rechnet durch Einsetzen leicht nach, dass die folgenden Bedingungen erfüllt sind: X X X µA = µB µC (52) i j = k i j X µAB i X µBC jk = i j k X µAB ij X µBC jk j = k 22 =0 X µAC ik = X µAC ik = X µABC = ijk i X i µABC ijk k j X µABC =0 ijk k Die Gleichung (43) zusammen mit den Nebenbedingungen (53) definiert das saturierte 3-dimensionale loglineare Modell dar. Es gelten die folgenden Bezeichnungsweisen: • µ ist das Gesamtmittel der logarithmierten, zu erwartenden Häufigkeiten, B C • µA i , µj und µk heißen Haupteffekte der drei Variablen A, B und C, AC BC • µAB ij , µik und µjk heißen Wechselwirkungs- oder Interaktionsterme 1. Ordnung, • µABC sind die Wechselwirkungs- oder Interaktionsterme 2. Ordnung, bzw. ijk Drei-Faktor-Interaktionen. • Mit µA , µB , · · ·, µAB etc werden die Haupt- und Interaktionsterme allgemein bezeichnet. Das Modell (43) ist eigentlich ”nur” eine Reparametrisierung der Daten und kann deshalb stets angepaßt werden. Interessanter sind deshalb Modelle, bei denen bestimmte Interaktionsterme weggelassen werden. Weitere Nebenbedingungen ergeben sich durch die spezielle Erhebungsweise einer Untersuchung. 2.6 2.6.1 Typen von Unabhängigkeit Das Modell (AB/AC/BC) Eine erste Vereinfachung des Modells (43) ergibt sich, wenn µABC = 0; man erhält B C AB AC BC log nijk = µ + µA i + µj + µk + µij + µik + µjk (53) In bezug auf das Beispiel 2.7 bedeutet µABC = 0, dass keine spezifischen Beziehungen zwischen A der Farbe des Täters, der des Opfers B und der Verhängung der Todesstrafe C bestehen; natürlich sind noch Interaktionen µAB 6= 0, µAC und µBC möglich. Die Wechselwirkung A × B bedeutet, dass es eine Abhängigkeit zwischen der Farbe des Täters und der des Opfers gibt (Weiße bringen nur Schwarze um und umgekehrt, oder Weiße töten nur Weiße, Schwarze aber Weiße und Schwarze, etc.), Interaktionen der Form A × C und B × C signalisieren, dass die Todesstrafe in Abhängigkeit von der Hautfarbe des Täters und/oder des Opfers abhängt. µABC = 0 bedeutet, dass die Wirkung der Farbe des Opfers stets gleich ist, unabhängig von der Farbe des Täters, und dass die Wirkung der Farbe des Täters unabhängig von der Farbe des Opfers ist. Es sei andererseits µABC 6= 0. Eine mögliche Form dieser Abhängigkeit besteht darin, dass etwa für A × C keine Abhängigkeit von B2 (Farbe des Opfers ist schwarz) gibt; wenn ein Schwarzer wegen Mordes angeklagt wird, so kann das Todesurteil von seiner Hautfarbe begünstigt werden, aber die Tatsache, dass er einen Schwarzen getötet hat, ist ohne Belang. War sein Opfer aber weiß (B2 ), so kann dies die Wahrscheinlichkeit eines Todesurteils erheblich erhöhen. Es gibt also einen Zusammenhang zwischen A × C und B2 . 23 2.6.2 Das Modell der bedingten Unabhängigkeit Man kann die Beziehung zwischen A und B betrachten und dabei die ”Werte” von C kontrollieren. Definition 2.1 Es sei Ck die k-te Kategorie des Faktors C, und es sei TAB|Ck die Kontingenztabelle für die Faktoren A und B für Ck ; TAB|Ck ist die k-te Scheibe aus der 3-dimensionalen Tafel A × B × C. Weiter sei Pij|k die Wahrscheinlichkeit für eine Beobachtung Ai , Bj , gegeben die Kategorie Ck ; es ist Pij|k = Pijk /P++k . Gilt Pij|k = Pi+|k P+j|k , für alle i, j (54) so heißen A und B bedingt unabhängig, gegeben Ck . Gilt Pij|k = Pi+k P+jk , P++k für alle i, j, k (55) so heißen A und B unabhängig, gegeben C; A und B sind dann unabhängig für alle Kategorien von C. Sind A und B bedingt unabhängig, gegeben C, so gilt das loglineare Modell B C AC BC log nijk = µ + µA i + µj + µk + µik + µjk (56) In diesem Modell soll also µAB = µABC = 0 gelten. In bezug auf das Beispiel soll es also keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers geben und darüber hinaus gibt es keine Abhängigkeit zwischen der Hautfarbe von Täter, Opfer und Verhängung der Todesstrafe. Die nijk lassen sich dann gemäß nijk = ni+k n+jk n++k (57) voraussagen. Es sei n die Gesamtzahl der Beobachtungen; dann ist nijk = nPijk und es folgt Pi+k P+jk Pijk = (58) i++k Dividiert man beide Seiten noch einmal durch P++k , so erhält man Pi+k P+jk Pijk = P++k P++k P++k Es ist Pijk = p(Ai ∩ Bj ∩ Ck ), und es ist p(Ai ∩ Bj ∩ Ck ) = p(Ai ∩ Bj |Ck )p(Ck ) oder p(Ai ∩ Bj ∩ Ck ) = p(Ai ∩ Bj |Ck ) p(Ck ) Nach (59) muß aber auch p(Ai ∩ Bj ∩ Ck ) p(Ai ∩ Bj ) p(Bj ∩ Ck ) = p(Ck ) p(Ck ) p(Ck ) gelten, und damit p(Ai ∩ Bj |Ck ) = p(Ai |Ck )p(Bj |Ck ). Dies heißt aber, dass A und B bedingt unabhängig, gegeben Ck sind. 24 (59) 2.6.3 Unabhängigkeit von einer Variablen, z.B. AC/B Man kann auch ein Modell betrachten, das entsteht, wenn µABC = 0 angenommen wird und darüber hinaus zwei Interaktionen 1. Ordnung vernachlässigt werden, d.h. µABC = µAB = 0 Definition 2.2 Der Faktor B ist gemeinsam unabhängig6 von A und C, wenn Pijk = Pi+k P+j+ (60) gilt. Hier kann man die Kombinationen von A und C als ”Werte” einer neuen Variablen (Faktoren) AC ansehen, und die Faktoren B und AC sind unabhängig. Das entsprechende loglineare Modell ist C AC B log nijk = µ + µA i + µj + µk + µik . Es folgt nijk = ni+k n+j+ n+++ (61) (62) und p(Ai ∩ Bj ∩ Ck ) = p(Ai ∩ Bj )p(Ck ) (63) Im Beispiel 2.7 bedeutet diese Form der Unabhängigkeit, dass das Ereignis, dass die Todesstrafe verhängt wird, unabhängig von der Täter-Opfer-Kombination (bezüglich der Farben) ist. 2.6.4 Die vollständige Unabhängigkeit, A/B/C Definition 2.3 Die Faktoren A, B und C heißen wechselseitig unabhängig, wenn Pijk = Pi++ P+j+ P++k (64) gilt. Dann folgt log Pijk = log Pi++ + log P+j+ + log P++k bzw. B C log nijk = µ + µA i + µj + µk . (65) Die wechselseitige Unabhängigkeit bedeutet dann, dass jeder Faktor gemeinsam unabhängig von allen anderen ist. 6 jointly independent 25 2.6.5 Hierarchische Modelle Sind die Faktoren wechselseitig unabhängig, so ist B gemeinsam unabhängig von A und C und A und B sind bedingt unabhängig. Alle hier betrachteten Modelle entstanden sukzessive aus dem saturierten Modell; es wurde zuerst die Interaktion 2. Ordnung (µABC ) fortgelassen, aber unter Beibehaltung aller Interaktionen 1. Ordnung. Dann wurden Interaktionen der 1. Ordnung weggelassen, aber unter Beibehaltung aller Haupteffekte. Schließlich kann man auch noch Haupteffekte vernachhlässigen. Jedenfalls werden die untergeordneten Effekte beibehalten, bis die jeweiligen übergeordneten Effekte alle verschwunden sind. Modelle dieser Art heißen hierarchische Modelle. Tabelle 7: Typen von Unabhängigkeit 2.7 Typ Pijk Assoziation wechselseitig Pi++ Pi+k P++k keine B gemeinsam von A und C Pi+k P+j+ µAC ik A, B bedingt unabh. von C Pi+k P+jk /P++k BC µAC ik + µjk Gesamtzahl möglicher Modelle Bei einem 3-faktoriellen Design sind eine Anzahl von Modellen möglich; für ein solches Design hat man insgesamt die in Tabelle 8 angegebenen Kombinationen. Es mag in speziellen Situationen sinnvoll sein, alle Modelle zu diskutieren, sehr häufig wird man aber nur an einigen der überhaupt möglichen Modelle interessiert sein. In Beispiel wird eine 3-dimensionale Tabelle diskutiert werden. 2.8 Interpretation der Parameter Die Parameter eines loglinearen Modells werden über Odds-Ratios interpretiert. 2.8.1 Drei-Faktor-Interaktion Um die Bedeutung der Drei-Faktor-Interaktion µABC zu finden, betrachtet man das bedingte Kreuzproduktverhältnis: Definition 2.4 Es bezeichnen i1 und i2 irgendwelche Stufen von A, und j1 , j2 mögen irgendzwei Stufen von B bezeichnen. Für die feste Stufe Ck von C heißt Θi1 i2 ;j1 j2 |k = p(Ai1 |Bj1 ∩ Ck )/p(Ai2 |Bj1 ∩ Ck ) ni j k ni j k = 11 22 p(Ai1 |Bj2 ∩ Ck )/p(Ai2 |Bj2 ∩ Ck ) ni1 j2 k ni2 j1 k das bedingte Kreuzproduktverhältnis, gegeben Ck . 26 (66) Tabelle 8: Mögliche Modelle bei 3-dimensionalem Design Modell Bedeutung A, B, C AB, C AC, B BC, A AB, AC AB, BC AC, BC ABC Vollst. Assoz. Assoz. Assoz. Assoz. Assoz. Assoz. Assoz. Unabhängigkeit A × B unabh. v. C A × C unabh. v. B B × C unabh. v. A A × B, A × C A × B, B × C A × C, B × C A×B×C Ist das bedingte Kreuzproduktverhältnis identisch für alle Ck , so hat C keinen Einfluß auf die Beziehung zwischen (d.h. auf die Assoziation von) A und B, die Verhängung der Todesstrafe wäre dann unabhängig von der speziellen Täter-OpferKombination. Ist das Verhältnis nicht unabhängig von C, so hängt das Urteil eben von der Kombination ab. Logarithmiert man Θi1 i2 ;j1 j2 |k und setzt man für log ni1 j1 k die entsprechenden Ausdrücke des saturierten Modells ein, so ergibt sich (über eine längliche Rechnung) log Θi1 i2 ;j1 j2 |k = ABC ABC ABC (µABC i1 j1 k1 − µi2 j1 k1 ) − (µi1 j2 k1 − µi2 j2 k1 ) −(µABC i1 j2 k2 − µABC i2 j1 k2 ) − (µABC i1 j2 k2 − (67) µABC i2 j2 k2 ) Θi1 i2 ;j1 j2 |k bildet die Wirkung von C auf den Zusammenhang zwischen A und B ab, und (67) zeigt, dass diese Einwirkung auf die Drei-Faktor-Interaktionen zurückzuführen ist. Für µABC = 0 ist Θi1 i2 ;j1 j2 |k = 1 für alle Ck . 2.8.2 Zwei-Faktor-Interaktionen Für die Interpretation der Zwei-Faktor-Interaktionen betrachtet man die bedingten Kreuzprodukte ni j k ni j k Θi1 i2 ;j1 j2 |k = 1 1 2 2 (68) ni1 j2 k ni2 j1 k und die Logarithmierung ergibt log Θi1 i2 ;j1 j2 |k1 Θi1 i2 ;j1 j2 |k2 = AB AB AB (µAB i1 j1 − µi2 j1 ) − (µi1 j2 − µi2 j2 ) (69) ABC ABC ABC +µABC i1 jj1 k + µi2 j2 k − µi1 j2 k − µi2 j1 k Demnach wird der Zusammenhang zwischen A und B durch die Interaktion µAB sowie durch die Drei-Faktoren-Interaktion µABC bestimmt. Für µAB = 0 ist der Zusammenhang (die Interaktion) zwischen A und B nicht mehr von C abhängig 27 und Θi1 i2 ;j1 j2 |k = Θi1 i2 ;j1 j2 , d.h. das Kreuzproduktverhältnis ist identisch mit dem entsprechenden Verhältnis der A × B-Tafel. Diese entsteht durch Aggregation (d.h. durch Summation) über C. 2.8.3 Ein-Faktor-Effekte Auch Haupteffekte können diskutiert werden. Dazu werden die bedingten Odds (Wettchancen) 1. Ordnung betrachtet: Θi1 i2 (Bj ∩ Ck ) = p(Ai1 |Bj ∩ Ck ) p(Ai2 |Bj ∩ Ck ) (70) und log Θi1 i2 (Bj ∩ Ck ) = A AB AB µA i1 − µi2 + µi1 j − µi2 j +µAC i1 k − µAC i2 k + µABC i1 jk − (71) µABC i2 jk Hier wird die Wahrscheinlichkeit des Auftretens von Ai1 relativ zu der von Ai2 unter der Bedingung, dass die Kombination (Bj ∩ Ck ) vorliegt, betrachtet. Verschwinden alle Interaktionsterme µAB , µAC und µABC , so hängt dieses Verhältnis A nur von der Differenz µA i1 − µi2 ab. Beispiel 2.4 Zur Illustration werden die Daten der Tabelle 4 zur Verhängung der Todesstrafe in den USA betrachtet; es handelt sich um eine 2 × 2 × 2-Tabelle. Es kann angenommen werden, dass es sich um ein multinomiales Erhebungsschema handelt. Die Parameter des Modells müssen dann der Bedingung AC BC ABC AB B C (72) n+++ = exp µ + µA i + µj + µk + µij + µik + µjk + µijk genügen. Dieses Modell ”erklärt” die Daten in jedem Fall; - es ist also ”trivial”. Die Frage ist, ob nicht ein einfacheres Modell die Daten ebenfalls erklärt. Die erste Frage ist, welche der möglichen Modelle inhaltlich interessant sind. Die Verhängung der Todesstrafe kann als Variable, die von der Farbe des Opfers einerseits und von der Farbe des Täters andererseits abhängt, aufgefaßt werden. Es stehe A für die Todesstrafe, B für das Opfer und C für den Täter7 Die Modelle werden der Reihe nach diskutiert: 1. Das Modell (A, B, C): Dies ist das ”Nullmodell”, d.h. es wird keinerlei Abhängigkeit zwischen den Faktoren Hautfarbe des Täters, Hautfarbe des Opfers und Verhängung der Todesstrafe angenommen. Wie man der Tabelle 9 entnehmen kann, ist der G2 -Wert hochsignifikant, d.h. das Modell ist nicht mit den Daten verträglich. 2. Das Modell (A, BC): Es wird angenommen, dass die Todesstrafe unabhängig von der Hautfarbe weder des Täters noch des Opfers verhängt wird; die Abhängigkeiten in der Tabelle können, dieser Hypothese entsprechend, durch Assoziationen zwischen Tätern und Opfern erklärt werden: Weiße töten überzufällig häufig Weiße, und/oder Schwarze überzufällig häufig Schwarze, und/oder Schwarze überzufällig häufig Weiße und/oder umgekehrt. Gemäß Tabelle 9 weicht auch dieses Modell signifikant von den Daten ab (p = .043 < .05). 7 Oder die Täterin, auf die Männlich-weiblich-Unterscheidung wird im Folgenden der Einfachheit wegen verzichtet. 28 Tabelle 9: Modelle für Abhängigkeiten zwischen Strafe und Hautfarbe Modell G2 df p A, B, C A, BC AB, C AC, B AB, AC AB, BC AB, AC, BC ABC 137.93 8.13 131.68 137.71 131.46 1.88 .701 .000 4 3 3 3 2 2 1 0 .000 .043 .000 .000 .000 .390 .403 1.000 A Bestrafung, B Opfer,C Täter 3. Das Modell (AB, C): Hier wird eine Beziehung zwischen der Farbe des Opfers und der Art der Bestrafung angenommen, die unabhängig von der Farbe des Täters ist. Der G2 -Wert is hochsignifikant, d.h. das Modell ist nicht mit den Daten kompatibel. 4. Das Modell (AC, B): Hier wird eine Abhängigkeit zwischen der Hautfarbe des Täters und der Verhängung der Todesstrafe angenommen; die Farbe des Opfers spielt keine Rolle. Der G2 -Wert ist offenbar hochsignifikant, d.h. das Modell ist nicht mit den Daten kompatibel. 5. Das Modell (AB, AC): Hier wird angenommen, dass es (i) eine Abhängigkeit zwischen der Verhängung der Todesstrafe und Farbe des Täters einerseits und (ii) zwischen Verhängung der Todesstrafe und Farbe des Opfers andererseits gibt. So kann die Tatsache, dass ein Täter schwarz ist, die Wahrscheinlichkeit des Todesurteils erhöhen, und unabhängig davon (d.h. unabhängig davon davon, dass der Täter weiß oder schwarz ist) von der Farbe des Opfers; die Richter können es als besonders verwerflich empfinden, dass ein Weißer umgebracht wurde, einen Schwarzen zu töten kann als läßliche Sünde gelten. Nach Tabelle 9 kann das Modell nicht akzeptiert werden. 6. Das Modell (AB, BC): Hier wird eine Abhängigkeit zwischen Verhängung der Todesstrafe einerseits und der Farbe des Opfers (z.B. wird das Töten eines Weißen als besonders verwerflich betrachtet) andererseits postuliert, und darüber hinaus wird angenommen, dass es noch eine Assoziation zwischen Opfern und Tätern gibt. Nach Tabelle 9 ist dieses Modell mit den Daten verträglich, - es ist aber die Frage, ob es auch das beste Modell ist. 7. Das Modell (AB, AC, BC): Hier werden paarweise Abhängigkeiten zwischen der Verhängung der Todesstrafe und (i) der Farbe des Opfers, (ii) der Farbe des Täters und schließlich (iii) zwischen Opfer und Täter angenommen. 29 Dieses Modell ist sicher mit den Daten verträglich, aber wieder stellt sich die Frage, ob es das beste Modell ist, - schhließlich werden mehr Parameter geschätzt als bei dem Modell (AB, BC),was automatisch eine bessere Anpassung impliziert. 8. Das Modell (ABC): Hier wird postuliert, dass die jeweilige Kombination von Opfer, Täter und Verhängung der Todesstrafe ganz spezifisch ist. Betrachtet man alle Modelle, so kommt man zu dem Schluß, dass das Modell (AB, BC) die beste Beschreibung der Daten liefert: es kommt mit einem Parameter weniger als das Modell (AB, AC, BC) aus und erzeugt einen G2 -Wert, dessen Wahrscheinlichkeit unter der Nullhypothese nur unwesentlich von dem des komplexeren Modells abweicht. Die Bestrafung hängt also im wesentlichen (i) von der Farbe des Opfers ab - es ist schlechter für den Täter, wenn er einen Weißen getötet hat,unabhängig davon, ob er selbst weiß oder schwarz ist - und (ii) von einer Assoziation zwischen Täter und Opfer - Weiße töten eher Weiße, und Schwarze eher Schwarze. 2.9 Aggregierbarkeit und das Simpsonsche Paradoxon Vielfach hat man einfach erscheinende 2 × 2-Tabellen zu interpretieren, etwa bei der Frage, ob Schwarze häufiger zum Tode verurteilt werden als Weiße, ob eine Therapie A besser als eine Therapie B ist, ob Frauen weniger häufig zum Studium zugelassen werden als Männer, etc. Die Entscheidung über die Fragen scheint sich oft direkt an den Daten ablesen zu lassen, – aber die Entscheidung kann dennoch nicht den Kern der Sache treffen. Wie bei Korrelationen zwischen zwei Variablen können dritte, zunächst nicht berücksichtigte Variablen eine wichtige Rolle spielen, die zu falschen Schlüssen führen können. Gegeben sei also eine 2 × 2-Tabelle der Form Man sei daran interessiert, zu erfahren, welche ”Behandlung” eher einen Tabelle 10: Der allgemeine Fall, N = a + b + c + d ”Behandlung” A B Σ ”Effekt” + a b c d a+c b+d Σ a+b c+d N Effekt (+) hat und welche eher nicht (-). Man wird dann die bedingten Wahrscheinlichkeiten P (+|A) = P (+ ∩ A) a = , P (A) a+b P (+|B) = P (+ ∩ B) c = P (B) c+d (73) miteinander vergleichen. Die Daten mögen nun P (+|B) > P (+|A) anzeigen, die Behandlung B habe also die größere Erfolgswahrscheinlichkeit. Simpsons Paradox Tatsächlich kann aber das Gegenteil der Fall sein: A kann in Wirklichkeit den größeren Effekt erzielen. Denn die untersuchte Stichprobe aus 30 N Personen (”Fällen”) kann sich aus Mitgliedern zweier Teilpopulationen zusammensetzen, und für beide Teilpopulationen kann A die größere Effektivität haben. Man hat also den ”paradoxen” Fall P (+|A, I) > P (+|A, II) > P (+|A) < P (+|B, I) (74) P (+|B, II), P (+|B), (75) (76) der als Simpsons Paradox bekannt ist, nach Simpson (1951), der dieses Phänomen zuerst einer größeren statistischen Öffentlichkeit vorgestellt hat. Bekannt war es aber schon länger: Karl Pearson (mit Koautoren) hat bereits 1899 darauf hingewiesen, und ebenso Yule (1903). Die Tabelle 11 zeigt die beiden Teiltabellen, aus denen die Tabelle 10 durch Aggregation hervorgegangen ist, d.h. also a = a1 + a2 , b = b1 + b2 , etc. Der Befund P (+|B) > P (+|A) ist kein notwendiges, sondern nur ein mögliches Resultat dieser Aggregation, das von den speziellen Werten von a1 , . . . , d2 abhängt. Um zu sehen, Tabelle 11: Tabellen für die Teilstichproben, S1 = a1 + · · · + d1 , S2 = a2 + · · · + d2 A B Σ Population I + Σ a1 b1 a1 + b 1 c1 d1 c1 + d1 a1 + c1 b1 + d1 S1 A B Σ Population II + Σ a2 b2 a2 + b 2 c2 d2 c2 + d2 a2 + c2 b2 + d2 S2 wie das Paradox zustande kommen kann, muß man sich nur das Zustandekommen der Ausdrücke für P (+|A) und P (+|B), wie man sie anhand der Daten aus der Tabelle 10 berechnet, klarmachen. Die hier relevanten Ausdrücke für bedingte Wahrscheinlichkeiten sind bereits auf der Seite 9 für den allgemeinen Fall als Spezialfall des Satzes der Totalen Wahrscheinlichkeit hergeleitet worden, sie seien hier der Einfachheit halber noch einmal angegeben: P (A|B) P (A|¬B) = = P (A|B ∩ C)P (C|B) + P (A|B ∩ ¬C)P (¬C|B) P (A|¬B ∩ C)P (C|¬B) + P (A|¬B ∩ ¬C)P (¬C|¬B). (77) (78) A steht hier für +, und B für die ”Behandlung”A, ¬B steht nun für die Behandlung B. C steht für die Teilpopulation I, ¬C für die Teilpopulation II. Die Gleichungen (77) und (78) werden hier also zu P (+|A) = P (+|B) = P (+|A ∩ I)P (I|A) + P (+|A ∩ II)P (II|A) P (+|B ∩ I)P (I|B) + P (+|B ∩ II)P (II|B) (79) (80) Dass diese Ausdrücke gerade die Werte für P (+|A) und P (+|B) aus der Tabelle 10 angeben, sieht man, wenn man berücksichtigt, dass die Aggregation der Marginaltabellen gleichbedeutend mit a = a1 + a2 , b = b1 + b2 , c = c1 + c2 und d = d1 + d2 ist. Die Gleichung (79) liefert dann a1 a1 + b 1 P (+|A) = + a1 + b 1 (a1 + b1 ) + (a2 + b2 ) 31 a2 a2 + b 2 a2 + b 2 (a1 + b1 ) + (a2 + b2 ) a1 + a2 a = (a1 + b1 ) + (a2 + b2 ) a+b + = (81) in Übereinstimmung mit (73). Für den Ausdruck (80) verfährt man analog. Die Aussagen (77) und (78) gelten allgemein, d.h. mit oder ohne Simpsons Paradoxon. Die Frage ist, unter welchen Bedingungen kein Paradoxon vorliegt. Man kann nun leicht die folgende Aussage beweisen: Es gelte P (I|A) = P (I) und P (II|A) = P (II), d.h. I und II seien unabhängig von A (dann sind auch A und B unabhängig von I und II). Dann kann Simpsons Paradox nicht vorliegen. Beweis: Es genügt die Annahme, dass I unabhängig von A ist; wegen II = ¬I folgt dann auch die Unabhängigkeit von II von A, etc. Sind also I und II unabhängig von A, so können die Gleichungen (79) und (80) in der Form P (+|A) = P (+|A ∩ I)P (I) + P (+|A ∩ II)P (II) (82) P (+|B) = P (+|B ∩ I)P (I) + P (+|B ∩ II)P (II) (83) (B = ¬A) geschrieben werden. Es werde nun angenomen, dass Simpsons Paradox auftritt; dann gilt etwa P (+|A) < P (+|B), aber P (+|A, I) > P (+|B, I) und P (+|A, II) > P (+|B, II). Nach Voraussetzung muß dann zunächst einmal P (+|A, I)P (I) + P (+|A, II)P (II) < P (+|B, I)P (I) + P (+|B, II)P (II) gelten. Bringt man die Terme auf der linken Seite auf die rechte Seite und fasst die Terme mit der gleichen Wahrscheinlichkeit P (I) bzw. P (II) zusammen, so erhält man 0 < (P (+|B, I) − P (+|A, I))P (I) + (P (+|B, II) − P (+|A, II))P (II). (84) Liegt, nach Voraussetzung, Simpsons Paradox vor, so muß P (+|B, I)−P (+|A, I) < 0 und P (+|B, II) − P (+|A, II) < 0 gelten. Aber das kann nicht sein, da dann die Ungleichung (84) nicht erfüllt ist (in jedem Fall ist ja P (I) ≥ 0 und P (II) ≥ 0). Die Annahme von Simpsons Paradox im Falle der Unabhängigkeit von A und I bz. II führt also auf einen Widerspruch, mithin kann Simpsons Paradox nicht gelten. Wegen der praktischen Bedeutung wird das Ergebnis in einem Satz zusammengefasst: Satz 2.2 Gegeben sei eine 3-dimensionale 2 × 2×-Tabelle mit den Faktoren A, B und C. Gilt Simpsons Paradox für die aggregierte 2 × 2-Tabelle (A × B), so sind die Faktoren B und C stochastisch abhängig, so liegt Simpsons Paradox nicht vor und es kann über den Faktor C aggregiert werden. Anmerkung: Die genannte Unabhängigkeit ist eine hinreichende Bedingung, die Notwendigkeit wurde nicht gezeigt. Diese würde darin bestehen, dass man vom 32 Nicht-Vorliegen des Simpson Paradoxes auf die Unabhängigkeit von B und C schließen kann. Zwar kann man folgern: B und C sind unabhängig (p), also liegt Simpsons Paradox nicht vor (q) (wenn p, dann q, d.h. p → q). Wenn dann Simpsons Paradox vorliegt, folgt, dass B und C nicht unabhängig voineinander sind (p → q ⇒ ¬q → ¬p). Aber wenn Simpsons Paradox nicht vorliegt, so folgt daraus noch nicht, dass B und C auch unabhängig sind. Denn p → q impliziert nicht ¬p → ¬q. Wenn Simpsons Paradox nicht vorliegt, so heißt das nur, dass eventuelle Abhängigkeiten zwischen B und C nicht hinreichen, um das Paradox zu erzeugen. Das Paradox wird an einer Reihe von Beispielen illustriert. Sie zeigen, dass die Interpretation von 2 × 2-Tabellen völlig fehlgehen kann, wenn man den möglichen Einfluß dritter Variablen vernachlässigt. Beispiel 2.5 In Beispiel 2.3 wurden die Daten einer Tabelle (Tab. 6), die durch Aggregation zweier Partialtabellen 5 erzeugt wurde, vorgestellt. Zur direkten Inspektion wird sie hier noch einmal wiedergegeben: Die Frage war, ob Schwarze Tabelle 12: Verhängung der Todesstrafe in den USA Angeklagte weiß schwarz Σ Todesstrafe ja nein 19 141 17 149 36 290 Σ 160 166 326 häufiger als Weiße zum Tode verurteilt wurden oder nicht. Das Assoziationsmaß θ = 1.181 legt nahe, dass dies nicht der Fall ist. Insbesondere zeigen die Wahrscheinlichkeiten, zum Tode verurteilt zu werden unter Bedingung, schwarz oder weiß zu sein P̂ (T S|S) = 17 = .102, 166 P̂ (T S|W ) = 19 = .119 160 eher in die entgegengesetzte Richtung; die bedingte Wahrscheinlichkeit, zum Tode verurteilt zu werden, wenn man schwarz ist, ist kleiner als die Wahrscheinlichkeit, zum Tode verurteilt zu werden, wenn man weiß ist. Bei der Tabelle 12 ist über den Faktor ”Opfer”aggregiert worden. Nun betrachte man die beiden Partialabellen 13. Ow repräsentiere ein weißes, Os ein schwarzes Opfer. Dann hat man die bedingten Wahrscheinlichkeiten P̂ (T S|W, Ow ) = 19 = .144, 132 P̂ (T S|S, Ow ) = 11 = .175. 63 Wenn also das Opfer weiß ist, so ist die bedingte Wahrscheinlichkeit, als schwarzer Täter zum Tode verurteilt zu werden, definitiv größer als wenn man ein weißer Täter ist. Betrachtet man noch die bedingten Wahrscheinlichkeiten, zum Tode verurteilt zu werden, wenn das Opfer schwarz ist, so erhält man P̂ (T S|W, Os ) = 0 = .000, 9 P̂ (T S|S, Os ) = 33 6 = .058. 103 Tabelle 13: Partialtabellen Ow : Opfer ist weiß Todesstrafe Täter + Σ weiß 19 132 151 schwarz 11 52 63 Σ 30 184 214 Os : Opfer ist schwarz Todesstrafe Täter + Σ weiß 0 9 9 schwarz 6 97 103 Σ 6 106 112 Offenbar hängt die Wahrscheinlichkeit eines Todesurteils nicht nur davon ab, welche Hautfarbe man als Täter hat, sondern auch, welche Hautfarbe das Opfer hatte. Für einen weißen Täter ist die Wahrscheinlichkeit eines kapitalen Urteils vernachlässigbar gering, wenn sein Opfer schwarz war, der Schätzung nach ist sie gleich Null. Die Wahrscheinlichkeit, als schwarzer Täter zum Tode verurteilt zu werden, wenn das Opfer schwarz war, ist ebenfalls nahe Null (vermutlich ist der Unterwschied zwischen .00 und .058 nur zufällig). Dieser Befund gilt sicherlich nur für diese Stichprobe und würde heute anders ausfallen, aber auf jeden Fall läßt sich vermuten, dass diese bedingte Wahrscheinlichkeit der Todesstrafe bei schwarzem Opfer relativ klein ist verglichen mit der bei weißem Opfer. Hat das Opfer eine weiße Hautfarbe, so hat der weiße Täter durchaus eine Chance, zum Tode verurteilt zu werden, aber die des schwarzen Täters ist noch größer. Man soll nicht töten, aber einen schwarzen Menschen zu töten, ist anscheinend weniger schlimm als einen weißen Menschen zu töten. Beispiel 2.6 Es werden zwei Therapien, A und B miteinander verglichen. 350 Patienten mit der Therapie A behandelt, weitere 350 mit der Therapie B, und es wird ausgezählt, welche Therapie die größere Erfolgsrate hat, – in Tabelle 14 werden die Ergebnisse zusammengefaßt. Tabelle 14: Zusammenfassende Darstellung der Ergebnisse, E Erfolg, ¬E kein Erfolg Th. A Th. B Σ E 273 289 562 ¬E 77 61 138 Σ 350 350 700 Für Therapie A ist P (E|A) = 273/350 = .78, für Therapie B ist P (E|B) = 289/350 = .83, d.h. die Daten sprechen anscheinend für die Therapie B. Oder? Werten man die Daten werden nach weiblichen und männlichen Patienten getrennt aus, so erhält man die Tabellen 15: Die Erfolgsquoten für die beiden Therapien sind 81 192 P (E|A, w) = = .93, P (E|A, m) = = .73, 87 263 und 234 55 P (E|B, w) = = .87, P (E|B, m) = = .69. 270 80 34 Tabelle 15: Ergebnisse, separiert nach weiblich und männlich, E Erfolg, ¬E kein Erfolg weiblich E ¬E Th. A 81 6 Th. B 234 36 Σ 315 42 männlich E ¬E Th. A 192 71 Th. B 55 25 Σ 247 96 Σ 87 270 357 Σ 263 80 343 In beiden Teilgruppen ist die Therapie A besser als die Therapie B! Nur wegen der Aggregation über die Geschlechter erscheint die Therapie B besser. Beispiel 2.7 Bei der Abstimmung über das Civil Rights Law (1964) (Abschaffung der Rassensegregation in den USA) schienen mehr Republikaner als Demokraten für das Gesetz gestimmt zu haben. Bei den Demokraten stimmte nur ein Anteil von .598 für das Gesetz, während es bei den Republikanern 100 % waren. Tabelle 16 fasst die Daten zusammen. Bei dieser Tabelle wird implizit angenommen, dass DeTabelle 16: Demokraten und Republikaner bei der Abstimmung über Civil Rights Dem Rep Σ ja 152 138 290 nein 102 0 102 Σ 254 138 392 mokraten und Republikaner jeweils relativ homogene Blöcke ohne ausgesprochene Subpopulationen sind. Andererseits können sich Nord- und Südstaatler hinsichtlich bestimmter politischer Grundeinstellungen durchaus unterscheiden. Betrachtet man also Demokraten und Republikaner nach Staaten getrennt, so ergibt sich das Bild der Tabelle 17. Tabelle 17: Demokraten bei der Abstimmung über Civil Rights Demokraten ja nein Nord 145 9 Süd 7 87 Σ 152 102 Republikaner ja nein Σ Nord 138 24 162 Süd 0 10 10 Σ 138 34 172 Σ 154 94 248 Man findet P (ja|N, Dem) = 145 = .94, 154 P (ja|S, Dem) = P (ja|N, Rep) = 138 = .85, 162 P (ja|S, Rep) = und 35 7 = .07 94 0 = .00. 10 In jedem Fall ist der Anteil der Demokraten, die für das Gesetz stimmten, höher als der Anteil der Republikaner. Die unerlaubte Aggregation über die Nord- und Südstaaten hat ein falsches Bild erzeugt. Beispiel 2.8 Geschlechterbevorzugung 1973 wurden von der University of California, Berkeley, die folgenden Daten über die Zulassung weiblicher und männlicher Studienbewerber veröffentlicht: Die Anteile männlicher und weiblicher ZuTabelle 18: Zulassungen weiblicher und männlicher Bewerber UCLA, Berkeley m w Σ Zulassung + 3715 4727 1512 2809 5227 7536 Σ 8442 4321 12763 lassungen sind P (+|m) = 3715 = .44, 8442 P (+|w) = 1512 = .35. 5227 Die Daten scheinen ein klares Bild zu liefern: die Wahrscheinlichkeit, als Frau zum Tabelle 19: Zulassungen an den sechs am meisten nachgefragten Fächern, UCLA, Berkeley 1973; S = Subject (Fach) Fach A B C D E F Σ + 511 353 120 138 53 16 1191 männl. Bew. Σ P (+|S) 314 825 .62 207 560 .63 105 325 .37 279 417 .33 138 191 .20 256 272 .06 1399 2590 Fach A B C D E F Σ + 89 17 202 131 94 24 557 weibl. Bew. Σ P (+|S) 19 108 .82 8 25 .68 391 593 34 244 375 .35 299 393 .24 317 341 .07 1278 1835 Studium zugelassen zu werden,ist deutlich geringer als die Wahrscheinlichkeit, als Mann zugelassen zu werden. Das Ergebnis sorgte für scharfe Debatten über die Benachteiligung von Frauen, bis Bickel, Hammel & O’Connell (1975) die Daten reanalysierten. Bickel et al. führten aus, dass die Analyse auf Kontingenztabellen in Bezug auf Geschlechtsunterschiede auf bestimmten Annahmen beruhen: (1) dass Frauen und Männer sich nicht in ihren Fähigkeiten (Intelligenz und andere Qualifikationen) unterscheiden, (2) dass die Bewerbungen der Frauen und Männer an die verschiedenen Departments nicht in Wechselwirkung mit den Zulassungsraten der einzelnen Fächer stehen. Die Annahme (1) ist sinnvoll, die Annahme (2) erweist sich als nicht sinnvoll. Die Tabelle 19 zeigt die Zulassungshäufigkeiten für die 6 am meisten nachgefragten Fächer, getrennt für weibliche und männliche Bewerber. Trägt man die Zulassungsraten P (+|S) für die Bewerberinnen gegen die der 36 Abbildung 1: Gender Bias: Zulassungsraten weiblich gegen männlich, UCLA Berkeley 1973 0,9 A 0,8 weibloiche Quote 0,7 B 0,6 0,5 0,4 0,3 D E C 0,2 F 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 männliche Quote männlichen Bewerber auf, so erhält man das Bild der Abbildung 1. Die angepasste Gerade hat die Gleichung y = −.027 + .973x, d.h. die additive Konstante ist in der Nachbarschaft von 0 und die Steigung ist in der Nachbarschaft von 1, – wie es zu erwarten ist, wenn es keinen systematischen (Gender) Bias gibt. Man muß hier noch berücksichtigen, dass nicht alle Fächer berücksichtigt wurden, sondern nur 6 meist nachgefragten, würden alle Fächer berücksichtigt, ist zu erwarten, dass die additive Konstante noch näher bei Null und die Steigung noch näher bei 1 liegt. Die Analyse von Bickel et al ergab, dass Frauen sich eher für Fächer bewerben, bei denen ein höherer Andrang herrscht, der wiederum eine geringere Wahrscheinlichkeit impliziert , zugelassen zu werden (Literatur, soziale Fächer), während Männer sich oft für Fächer bewerben, bei denen der Andrang geringer ist (Mathematik, Ingenieursfächer, Chemie, etc) und bei denen der Zugang deshalb leichter ist. Von einer systematischen Benachteiligung der Frauen könne keine Rede sein, die unterschiedlichen Zugangsraten der Fächer selbst seien die moderierende Variable. Zusammenfassung: Das Paradox wurde in den Gleichungen (74), (75) und (76) zusammengefasst, die hier noch einmal wiedergegeben seien: P (+|A, I) > P (+|A, II) > P (+|A) < P (+|B, I) P (+|B, II), P (+|B), Man hat also zwei Teilpulationen oder Bedingungen, I und II, unter denen jeweils zwei ”Behandlungen” A und B miteinander verglichen werden, und in beiden Populationen I und II erscheint A als die bessere. Aggregiert man die beiden Datensätze aber zu einem, so erscheint B als die bessere Methode. Seit Simpsons (1951)-Artikel ist eine große Zahl von Arbeiten zu diesem Befund erschienen, obwohl von rein statistischer bzw. wahrscheinlichkeitstheoretischer Seite aus das Paradox seit Blyth (1972) eine nüchterne Erklärung hat: es ist einfach 37 eine Konsequenz der Tatsache, dass sich der Befund P (+|A) < P (+|B) als,wie Blyth es ausdrückte, ”gewogene Summe” der Befunde P (+|A, I) > P (+|B, I) und P (+|A, II) > P (+|B, II) ergibt und nicht einfach als arithmetisches Mittel dieser beiden Befunde (x̄ = (x1 + x2 )/2, d.h. d die Terme x1 und x2 werden jeweils mit dem Faktor 1/2 addiert), wie es, so Blyth, die Intuition nahelege. Blyth bezieht sich darauf, dass hier der auf Seite 8 zitierte Satz der Totalen Wahrscheinlichkeit angwendet wird, vergl. die Gleichungen (77) und (78), wo die Gewichte durch die bedingten Wahrscheinlichkeiten P (C|B), P (C|¬B) etc gegeben sind, die natürlich von 1/2 abweichen können. Sobald aber P (C|B) = P (C|¬B) etc gilt, B und C also unabhängig voneinander sind, gibt es auch kein Paradox mehr. Aber auch wenn das Paradox eigentlich gar keines ist, so hat es doch eine beunruhigende Komponente. Denn die Ungleichungen, die das Paradox ausmachen, können ja bestehen, ohne dass man es bemerkt, wenn nämlich gar keine Informationen über die Bedingungen oder Teilpopulationen vorliegen, über die man gewissermaßen ahnungslos aggregiert hat. Man hat etwa in einer Stichprobe verschiedene Altersgruppen zusammengefasst, oder verschiedene Reaktionstypen, von denen man nicht wußte, dass es sie überhaupt gibt etc, und interpretiert eine Tabelle in Bezug auf Wirkungen, die in den Teilgruppen gerade in entgegengesetzter Weise existieren. Das Problem ist natürlich analog zu dem der Interpretation von Korrelationen, die nur durch die Wirkung implizit gemessener, konfundierender Variablen zustandekommen. Lindley & Novick (1981) haben die Situation auf einen bemerkenswerten Punkt gebracht (vergl. Beispiel 2.6): angenommen, ein Arzt soll eine Therapie verordnen. Weiß er, dass ein Patient aus einer (Teil-)Population I oder II kommt, verordnet er die Therapie A. Weiß er es nicht, muß er die Therapie B verordnen, – obwohl sie eigentlich die schlechtere Therapie ist. Natürlich wird er, wenn er weiß, dass die Therapie sowohl in der Population I und II die bessere Therapie ist, diese in jedem Fall verordnen. Andererseits liefert der Satz der Totalen Wahrscheinlichkeit eine optimale Empfehlung im Sinne der Bayesianischen Statistik, dh im Falle der Unkenntnis über die Zugehörigkeit zu entweder I oder II sollte man sich für die Therapie B entscheiden. Interessierten Lesern sei in diesem Zusammenhang die Arbeit von Pearls (1999/2000) empfohlen. Wissenschaftstheoretiker, also Philosophen (oder philosophisch motivierte Wissenschaftler), die sich mit dem Problem der Kausalität beschäftigen, sehen hier ebenfalls ein Problem. Eine zusammenfassende Diskussion findet man bei Malinas & Bigelow (2009). Pearl (1999) bzw (2000) diskutiert das Paradox ebenfalls in Bezug auf die Frage der Kausalität. 2.10 Logistische Regression und log-lineare Modelle In Tabelle 4 wurden Daten präsentiert, die Informationen über die Beziehungen zwischen der Hautfarbe (i) des Opfers, (ii) des Täters und (iii) der Verhängung der Todesstrafe enthalten. Die Daten können durch ein log-lineares Modell beschrieben werden. Andererseits kann die Variable ”Todesstrafe” mit den Werten ”ja” (verhängt) oder ”nein” (nicht verhängt) als abhängige Variable, und die Farben von Opfer und Täter als unabhängige Variablen betrachtet werden, so dass man auch eine logistische Regression rechnen könnte. Es zeigt sich nun, dass eine Teilmenge der überhaupt möglichen log-linearen Modelle der logistischen Regression äquivalent sind. 38 Die Farbe des Täters werde mit A bezeichnet; A = Aw , wenn der Täter weiß ist, A = As , wenn er schwarz ist. B stehe für die Farbe des Opfers, B = Bw , wenn das Opfer weiß, und B = Bs , wenn das Opfer schwarz ist. C sei der Faktor ”Todesstrafe”: C = Cj , wenn sie verhängt wird, C = Cn , wenn sie nicht verhängt wird. Es sei p die Wahrscheinlichkeit (relative Häufigkeit), dass die Todesstrafe verhängt wird, und 1 − p dementsprechend die Wahrscheinlichkeit, dass sie nicht verhängt wird. Gemäß dem Ansatz der kategorialen Regression wird log pij1 nij1 = log = β0 + βiA + βjB 1 − pij1 nij2 (85) betrachtet. Im log-linearen Ansatz kann das Modell (AB, AC, BC) diskutiert werden; hier treten also nicht nur die Beziehungen von A und B zu C auf, sondern es kommt noch ein Interaktionsterm AB hinzu. Es läßt sich nun zeigen, dass dieses Modell das Regressionsmodell (85) impliziert. Das log-lineare Modell lautet log nij1 nij2 = log nij1 − log nij2 = B C AB AC bc (µ + µA i + µj + µ1 + µij + µi1 + µj1 ) B C AB AC bc −(µ + µA i + µj + µ2 + µij + µi2 + µj2 ) C AC AC BC BC (µC 1 − µ2 ) + (µi1 − µi2 ) + (µj1 − µj2 ) = Nun muß die Bedingung, dass sich Effekte zu Null summieren, berücksichtigt werden; es gilt X X X µC µAC µBC k = ik = jk = 0. k k k Daraus folgt µC 1 µAC j1 µBC j1 Daraus ergibt sich log = −µC 2 (86) = −µAC i2 −µBC j2 . (87) = nij1 AC BC = 2µC 1 + 2µi1 + 2µj1 nij2 (88) (89) und diese Gleichung entspricht (85), denn 2µAC i2 ist der i-te Effekt von A auf das A BC Logit von C, d.h. µAC = β , und 2µ ist der j-te Effekt von B auf das Logit i1 i j1 B von C, d.h. 2µBC = β . Zum Schluß erhält man noch 2µC 1 = α. j1 j Die logistische oder kategoriale Regression (85) enthält keinen der Interaktionsterme µAB ij , der im allgemeinen log-linearen Ansatz enthalten ist. Der Grund dafür ist, dass sich diese Terme im Logit log nij1 /nij2 herauskürzen. Es ist aber nicht so, dass sich grundsätzlich alle Interaktionsterme zwischen den unabhängigen Variablen herauskürzen. Man kann z.B. eine 4-fach Klassifikation vorliegen haben mit den Faktoren A, B, C und D, wobei D eine binärre abhängige Variable ist. Betrachtet man nun das Logit log nijk1 = α + βkA + βiB + βjC nijk2 39 (90) und gleichzeitig die möglichen log-linearen Modelle, so findet man, dass das Modell (ABC, AD, BD, CD) diesem Ansatz entspricht; hier ist also die 3-fach Interaktion ABC enthalten. Man AB kann weiter den Regressionsansatz (90) um einen Term βki erweitern, und dann entspricht das log-lineare Modell (ABC, ABD, CD) diesem Regressionsansatz. 40 Literatur [1] Agresti, A.: Categorical Data Analysis. Hoboken, New Jersey 2002 [2] Bickel, P.J., Hammel, E. A., O’Conell, J.W. (1975) Sex Bias in Graduate Admissions: Data from Berkeley. Science 187, 398 – 404 [3] Bishop, Y.M.M., Fienberg, S.E., Holland, P.W.: Discrete Multivariate Analysis. Cambridge MA 1975 [4] Blyth, C.R. (1972) On Simpson’s paradox and the sure-thing principle. Statistics and Probability Letters , 2(1), 15–18 [5] Fahrmeir, L., Hamerle, A., Tutz, G. (Hrsg.) Multivariate statistische Verfahren. Berlin 1996 [6] Malinas, G. Bigelow, J. (2009) Simpson’s paradox. The Stanford Encyclopedia of Philosophy (Fall 2009 Edition), Edward N. Zalta (ed.), URL = <http://plato.stanford.edu/archives/fall2009/entries/paradox-simpson/>. [7] Pearl, J. (1999) Simpson’s Paradox: An Anatomy. Technical Report R-264, April 1999 [8] Pearl, J. (2000) Pearl, Causality: Models, Reasoning, and Inference, New York, Cambridge: Cambridge University Press. [9] Pearson, K., Lee, A., Bramley-Moore, L. (1899) Genetic (reproductive) selection: Inheritance of fertility in man. Philosophical Transactions of the Royal Society A , 73, 534 – 539 [10] Radelet, M.: Racial characteristics and imposition of the death penalty. Amer. Sociol. Review 46, 918-927 [11] Simpson, E. H. (1951) The Interpretation of Interaction in Contingency Tables.Journal of the Royal Statistical Society, Ser. B., 13, 238–241. [12] Yule, G. H. (1903) Notes on the theory of association of attributes in Statistics,Biometrika , 2, 121–134. 41