Log-Lineare Modelle und die Interpretation von

Werbung
Log-Lineare Modelle und die Interpretation von
Kontingenztabellen
U. Mortensen
·
Kompaktkurs Multivariate Methoden
Psychologisches Institut der Johannes Gutenberg-Universität Mainz
SS 2012
Juni 2012
1
Inhaltsverzeichnis
1 Einführung
3
1.1
Einführung in die Einführung . . . . . . . . . . . . . . . . . . . . .
3
1.2
Bedingte Wahrscheinlichkeiten und Unabhängigkeit . . . . . . . . .
5
2 Log-lineare Analysen
11
2.1
Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Erhebungsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2.1
Das produkt-multinomiale Schema . . . . . . . . . . . . . .
14
2.2.2
Das multinomiale Schema . . . . . . . . . . . . . . . . . . .
15
2.2.3
Das Poisson-Schema . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Parameter, Logits und Kreuzproduktverhältnisse. . . . . . . . . . .
18
2.4
Tests für die Güte der Anpassung . . . . . . . . . . . . . . . . . . .
19
2.5
Verallgemeinerung: 3-dimensionale Tafeln . . . . . . . . . . . . . .
20
2.6
Typen von Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . .
23
2.6.1
Das Modell (AB/AC/BC) . . . . . . . . . . . . . . . . . .
23
2.6.2
Das Modell der bedingten Unabhängigkeit . . . . . . . . . .
24
2.6.3
Unabhängigkeit von einer Variablen, z.B. AC/B
. . . . . .
25
2.6.4
Die vollständige Unabhängigkeit, A/B/C . . . . . . . . . .
25
2.6.5
Hierarchische Modelle . . . . . . . . . . . . . . . . . . . . .
26
2.7
Gesamtzahl möglicher Modelle . . . . . . . . . . . . . . . . . . . .
26
2.8
Interpretation der Parameter . . . . . . . . . . . . . . . . . . . . .
26
2.8.1
Drei-Faktor-Interaktion . . . . . . . . . . . . . . . . . . . .
26
2.8.2
Zwei-Faktor-Interaktionen . . . . . . . . . . . . . . . . . . .
27
2.8.3
Ein-Faktor-Effekte . . . . . . . . . . . . . . . . . . . . . . .
28
Aggregierbarkeit und das Simpsonsche Paradoxon . . . . . . . . . .
30
2.10 Logistische Regression und log-lineare Modelle . . . . . . . . . . .
38
2.9
2
1
1.1
Einführung
Einführung in die Einführung
Im Alltag sind wir es durchaus gewohnt, in Wahrscheinlichkeiten zu denken: Einem Studierenden, der in die Prokrastinationsfalle geraten ist und die oder der es
nicht schafft, mit den Vorbereitungen für eine Prüfung zu beginnen, wird geraten,
sich mittels einer Verhaltenstherapie helfen zu lassen, – vermutlich wird diese Therapie ihr oder ihm helfen. Einem Raucher, der es nicht schafft, sich das Rauchen
abzugewöhnen, wird geraten, abrupt und von einem Tag auf den anderen mit dem
Rauchen aufzuhören, vermutlich hätte er dann die beste Chance, Nichtraucher zu
werden. Oft werden Ratschläge anders formuliert: Wenn du jetzt mit dem Rauchen aufhörst, statt dir jeden Tag ein paar Zigaretten weniger zu gönnen, wirst
du dauerhaft zum Nichtraucher! Ein solcher Ratschlag ist aber vermutlich nur gut
gemeint, aber wahrscheinlich trifft die Voraussage, dass der so Beratene tatsächlich
nie mehr raucht, nicht ein. Man kann also vom folgenden Ansatz ausgehen:
Axiom: Psychische Zustände, allgemein menschliche Verhaltensweisen, treten mit bestimmten Wahrscheinlichkeiten auf.
Dieses Axiom schließt die Möglichkeit, dass bei einem bestimmten Menschen bestimmte Verhaltensweisen oder Zustände mit der Wahrscheinlichkeit Null oder
Eins auftreten, ein. Dass der Chef der Deutschen Bank an der Tankstelle sich eine Packung Kekse stiehlt, hat die Wahrscheinlichkeit Null. Aber man sollte nicht
vergessen, dass ein Ereignis mit der Wahrscheinlichkeit Null nicht unmöglich ist,
und das ein Ereignis mit der Wahrscheinlichkeit Eins nicht mit Sicherheit eintreten muß. Andererseits hat ein unmögliches Ereignis stets die Wahrscheinlichkeit
Null und das sichere Ereignis hat die Wahrscheinlichkeit 1. Ist A ein beliebiges
zufälliges Ereignis mit der Wahrscheinlichkeit P (A) und 0 < P (A) < 1, und ist
¬A das zu A komplementäre Ereignis (nicht-A), so ist A ∪ ¬A = Ω ein Beispiel
für das ”sichere Ereignis”, (∪ steht für das einschließende Oder), denn es tritt ja
eines der beiden Ereignisse mit Sicherheit ein, und A ∩ ¬A ist ein Beispiel für ein
unmögliches Ereignis, denn A und ¬A können nicht zugleich eintreten.
Bei vielen Evaluationen von Maßnahmen oder Therapien kann nur ausgezählt
werden, wie häufig eine Therapie ”erfolgreich ” verlaufen sind. Bei Maßnahmen
zur Erhöhung der Verkehrssicherheit kann man zunächst einmal nur auszählen, ob
die Anzahl der Unfälle geringer geworden ist, bei einer Untersuchung über die Effektivität einer Maßnahme zur Raucherentwöhnung (Nikotinpflaster, Kaugummis,
Hypnosebehandlung etc) kann man letztlich nur auszählen, wieviele Raucher aus
einer Stichprobe das Rauchen reduziert oder ganz eingestellt haben, etc. Die Daten
werden dann in Tabellen zusammengefasst, die in der Statistik als Kontingenztabellen bekannt sind. Die Zahlen in den Tabellen legen oft bestimmte Hypothesen
nahe, aber ebenso oft sind sie auch mit Alternativhypothesen vereinbar, – jedenfalls auf den ersten, intuitiven Blick hin. Die Frage, ob bestimmte unabhängige
Variablen wie etwa das Alter, das Geschlecht, die Haut- oder Augenfarbe etc einen
systematischen Einfluß auf die betrachteten Verhaltensweisen haben, kann selten
durch direkte Inspektion der Tabellen beantwortet werden. So kommt die Frage
nach systematischen Möglichkeiten der Analyse solcher Tabellen in die Welt.
3
Ein globales Maß für Abhängigkeiten in einer Kontingenztabelle ist das χ2 .
Berechnet man den χ2 -Wert für die bekannte Westphal-Tabelle, die aus der Kategorisierung von Patienten nach Maßgabe ihres Körperbaus einerseits und ihrer
mentalen Vefassung andererseits entstand, so findet man einen hochsignifikanten
Wert, der nahelegt, dass der Körperbau mit bestimmten mentalen Zuständen assoziiert ist. Gleichzeitig ist klar, dass der Zusammenhang zwischen Körperbau und
mentalem Zustand nicht deterministisch ist: unter den athletisch gebauten finden
sich nicht nur Epileptiker, sondern auch Schizophrene und Manisch-Depressive,
und unter den Leptosomen findet man nicht nur Schizophrene, sondern auch Epileptiker und Manisch-Depressive, etc. Es gibt eben nur eine statistische Kopplung
zwischen den Merkmalen. Man kann es u.U. auch anders formulieren. Außer einer systematischen Komponente, die zB einen Leptosomen eher schizoid oder gar
schizophren sein oder werden läßt, gibt es noch andere Einflüsse, die diese systematische Komponente überlagern, diese möglicherweise auf Null reduzieren und
jedenfalls ganz andere psychische Zustände erzeugen als die, die mit dem Körperbau ”üblicherweise” einhergehen.
Wir haben gelernt, dass Korrelationen nicht notwendig mit dem Begriff der
Kausalität in Zusammenhang gebracht werden dürfen. Trotzdem drängen sich kausale Interpretationen oft auf. Infektionen treten bei einer Geburt auf, weil bestimmte Risikofaktoren gegeben waren. Man untersucht dann den Einfluß verschiedener
Risikofaktoren auf die Wahrscheinlichkeit, dass bei einer Geburt eine Infektion
auftritt. Man kann sich fragen, ob ein bestimmter Körperbau die Wahrscheinlichkeit, an Epilepsie zu erkranken, erhöht. Es könnte ja sein, dass ein bestimmter
Körperbau mit spezifischen Aspekten des Stoffwechsels einhergeht, die wiederum
die Neigung zu bestimmten neurologischen Störungen erhöhen, – aber selbst dann,
wenn dies so wäre, hätte man es nicht mit einer deterministischen Kausalkette der
Form ’athletischer Körperbau → Epilepsie’ zu tun, sondern eben nur mit einer
statistischen ”Assoziation”. Andererseits wird man kaum davon ausgehen, dass eine neurologische Störung wie die Epilepsie im Sinne probabilistischer Kausalität
– wenn diese saloppe Begriffsbildung für den Augenblick erlaubt ist – die Wahrscheinlichkeit erhöht, dass man einen athletischen Körperbau entwickelt. Ebenso
wird man bei Infektionen kaum fragen, ob sie die Wahrscheinlichkeit eines Risikofaktors im Sinne einer deterministischen Kausalrelation erhöhen. Wenn man
überhaupt von Kausalitäten reden will, so wird man die Risikofaktoren als Ursache der Infektion ansehen, nicht aber die Infektion als Ursache der Risikofaktoren.
Diese Betrachtungen führen zum Begriff der Assoziation zwischen den beobachteten Merkmalen, der analog zu dem der Korrelation gesehen wird. Wenn zwei
Merkmale als miteinander assoziiert erscheinen, muß dies nicht bedeuten, dass das
eine Merkmal das andere kausal bewirkt. Vielmehr wird es oft so sein, dass es
hinter den beobachteten Merkmalen liegende und insofern latente Merkmale gibt,
die das gemeinsame Auftreten verschiedener Merkmale begünstigen. Das allgemeine χ2 gibt nur an, dass vermutlich derartige latente Strukturen existieren, oder
auch nicht existieren, aber es sagt nicht, zwischen welchen Stufen der betrachteten Faktoren sie existieren oder nicht existieren. Es gibt eine Assoziation zwischen
dem Faktor ”Körperbau” und dem Faktor ”mentaler Zustand”, – aber gibt es eine
spezielle Beziehung zwischen dem atypischen Körperbau und der Schizophrenie?
Diese Frage erfordert Analysen, die über die Berechung eines globalen χ2 -Wertes
hinausgehen. Bevor aber auf die Details dieser Analysen eingegangen wird, soll
noch kurz der Begriff der bedingten Wahrscheinlichkeit rekapituliert werden, denn
4
er bildet die Basis der folgenden Betrachtungen.
1.2
Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Ein Patient zeigt ein bestimmtes Symptom (er ist leptosom). Wie groß ist die
Wahrscheinlichkeit, dass er durch einen bestimmten psychischen Zustand charakterisiert ist oder an einer bestimmten Krankheit leidet? Dass man von bestimmten Symptomen mit Sicherheit auf bestimmte, zunächst nicht direkt beobachtbare
Merkmale schließen kann, ist ein Spezialfall, mit dem man es in den meisten Fällen gerade nicht zu tun hat. Von einem leptosomen Körperbau kann man eben
nicht mit Sicherheit auf einen schizoiden Zustand schließen, aber dieser Zustand
kann durchaus wahrscheinlichlicher als andere Zustände sein – Näheres findet man
durch weitere Analysen und Diagnosen. Gegeben sei aber ein leptosomer Körperbau, – wie groß ist jetzt die Wahrscheinlichkeit eines schizoiden Zustands? Wichtig
bei dieser Frage ist, dass man eben nicht mehr einen beliebigen Patienten vor sich
hat, sondern einen aus einer Teilmenge aller möglichen Patienten, nämlich einen
aus der Teilmenge der leptosomen Personen. Die Wahrscheinlichkeit, dass er auch
noch schizoid ist, ergibt sich aus dem Anteil derjenigen Personen, die sowohl leptosom wie auch schizoid sind, am Anteil der leptosomen Personen. Gibt es also nL
Leptosome und nLS Personen die leptosom und schizoid sind, so kann man sagen,
dass der Anteil
P (schizoid unter der Bedingung leptosom) =
nLS
nL
ist. Man schreibt
P (schizoid|leptosom)
für P (schizoid unter der Bedingung leptosom). Der Punkt ist hier, dass man schon
weiß, dass eine Person leptosom ist, ”leptosom” ist das beobachtete Symptom. Man
schränkt also die weitere Diagnose auf den Personenkreis mit diesem Merkmal ein.
Im Vergleich dazu betrachte man noch die Frage, wie groß denn die Wahrscheinlichkeit ist, dass eine Person schizoid und leptosom ist. Hier geht man nicht von
einer Vorinformation (Person ist leptosom) aus, sondern fragt einfach nur nach der
Wahrscheinlichkeit der Kombination beider Merkmale. Ist n die Gesamtzahl der
Personen, so ist die Wahrscheinlichkeit der Kombination durch
P (schizoid und leptosom) =
nLS
,
n
nLS ≤ n
gegeben, wobei man auch
P (schizoid ∩ leptosom)
für P (schizoid und leptosom) schreibt. Da die Leptosomen nur eine Teilmenge aller
Personen sind, ist nL ≤ n und folglich
nLS
nLS
≥
,
nL
n
d.h. also bei diesem Beispiel
P (schizoid|leptosom) > P (schizoid ∩ leptosom).
5
(1)
Betrachten wir noch einmal den obigen Ausdruck:
P (schizoid|leptosom) =
nLS
.
nL
Der Wert des Quotienten auf der rechten Seite bleibt erhalten, wenn man Zähler
und Nenner durch n teilt:
nLS/n
nLS
=
.
nL
nL /n
Aber nLS /n war gerade der Ausdruck für die Wahrscheinlichkeit, dass eine Person
leptosom und schizoid ist, und nL /n kann als Wahrscheinlichkeit, dass eine zufällig gewählte Person leptosom ist gedeutet werden. Schreibt man also L für das
(zufällige) Ereignis, dass eine Person leptosom ist, und S für das ebenfalls zufällige
Ereignis, dass eine Person schizoid ist, so kann man
P (S|L) =
P (L ∩ S)
P (L)
schreiben. Für beliebige zufällige Ereignisse A und B hat man deshalb die
Definition 1.1 Für die zufällige Ereignisse A und B gilt die Beziehung
P (A|B) =
P (A ∩ B)
.
P (B)
(2)
wobei P (A|B) bedingte Wahrscheinlichkeit von A, gegeben B ist.
Dabei steht das Zeichen | für ”unter der Bedingung” und ∩ für ”und” (andere Zeichen für ”und” sind & oder ∧). Dies ist die allgemeine Definition für eine bedingte
Wahrscheinlichkeit, die man für irgendzwei zufällige Ereignisse A und B anschreiben kann. Man sieht, dass die Ungleichung (1) ganz allgemein gilt: Da notwendig
P (B) ≤ 1, folgt für beliebige A und B
P (A|B) ≥ P (A ∩ B).
(3)
Die vorangegangene Plausibilitätsbetrachtung zur Definition von P (A|B) ist
intuitiv, weil sie an den bekannten Ansatz, Wahrscheinlichkeiten über relative
Häufigkeiten zu definieren anknüpft. Sie suggeriert, dass man die Anzahlen n,
nL , nLS kennt, – In Wirklichkeit kennt man diese Anzahlen aber kaum, man wird
sie bestenfalls durch Schätzungen ersetzen können. Nicht alle Wahrscheinlichkeiten
lassen sich durch relative Häufigkeiten definieren: Wie groß ist die Wahrscheinlichkeit, dass wir in diesem Jahr ”weiße Weihnachten” haben werden, wenn der Prozess
der Erderwärmung weiter fortschreitet? Man kann diese Wahrscheinlichkeit kaum
durch die Anzahl weißer Weihnachten bei ansteigender Erderwärmung relativ zur
Anzahl von Weihnachten überhaupt abbilden. Ein Satz wie ”Wahrscheinlich werden wir alle davon ausgehen, dass es eher unwahrscheinlich ist, dass es überall in
Deutschland weiße Weihnachten geben wird” illustriert die Problematik der Definition von Wahrscheinlichkeiten anhand relativer Häufigkeiten. Die Definition (2)
basiert also auf dem axiomatischen, Kolmogoroffschen Wahrscheinlichkeitsbegriff.
Dass man in empirischen Untersuchungen Wahrscheinlichkeiten u.U. durch relative
Häufigkeiten abschätzen kann, bedeutet nicht, dass der Begriff der Wahrscheinlichkeit durch relative Häufigkeiten definiert ist.
6
Aus der allgemeinen Definition folgt sofort
P (B|A) =
P (A ∩ B)
,
P (A)
denn die Definition der bedingten Wahrscheinlichkeit gilt ja für beliebige zufällige
Ereignisse. Multiplikation beider Seiten mit P (A) liefert aber
P (A ∩ B) = P (B|A)P (A).
Analog dazu liefert P (A|B) = P (A ∩ B)/P (B) den Ausdruck
P (A ∩ B) = P (A|B)P (B).
Dann folgt aber
P (B|A)P (A) = P (A|B)P (B),
so dass man die allgemeine Beziehung
P (B|A) = P (A|B)
P (B)
P (A)
(4)
erhält. Aus ihr folgt unmittelbar, dass im Allgemeinen P (B|A) 6= P (A|B) gilt,
wenn P (A) 6= P (B) ist. Ist die (bedingte) Wahrscheinlichkeit, dass ein Patient
schizoid ist unter der Bedingung, dass er leptosom ist, gleich .7, so kann man von
der Tatsache, dass ein Patient als schizoid diagnostiziert wurde, noch nicht mit
der gleichen Wahrscheinlichkeit .7 vermuten, dass er auch leptosom ist1 . P (A|B)
und P (B|A) können sich drastisch unterscheiden, wenn nur die Werte von P (A)
und P (B) (in der Diagnostik als ’Grundquoten’ bekannt) hinreichend verschieden
sind.
(2) erlaubt es, den Begriff der stochastischen Unabhängigkeit klar zu fassen, d.h
so zu fassen, dass man die Möglichkeit der Unabhängigkeit bzw. der Abhängigkeit
anhand gegebener Daten untersuchen kann.
Definition 1.2 Sind also A und B irgend zwei zufällige Ereignisse, so heißt A
stochastisch unabhängig von B genau dann, wenn
P (A|B) = P (A)
(5)
gilt.
Dies heißt einfach, dass die Kenntnis etwa des Symptoms B noch keinerlei Kenntnis
über das Merkmal A impliziert, – A tritt unabhängig von B auf. Setzt man diesen
Spezialfall in (2) ein, so erhält man
P (A|B) =
P (A ∩ B)
= P (A),
P (B)
und multipliziert man in dieser Gleichung Zähler und Nenner mit P (B), so erhält
man
P (A ∩ B) = P (A)P (B).
(6)
1 Stellen Sie sich vor, eine Therapeutin erzählt einem befreundeten Therapeuten am Telefon,
sie habe einen schizoiden Patienten, und der Therapeut stellt in Gedanken Vermutungen über
dessen Körperbau an.
7
Diese Beziehung (”Multiplikationsregel”) gilt dann und nur dann, wenn A und B
stochastisch unabhängig sind!
Wenn nun A stochastisch unabhängig von B ist, – kann es dann sein, dass B
stochastisch abhängig von A ist? Ein Symptom (A) möge unabhängig von einem
zu diagnostizierenden Merkmal M vorhanden oder nicht vorhanden sein, M ist
also stochastisch unabhängig von A. Kann es also sein, dass dennoch A gehäuft
auftritt, wenn M vorliegt, A also stochastisch abhängig von M ist?
Dazu betrachtet man allgemein die bedingte Wahrscheinlichkeit P (B|A). Es
gelte P (A|B) = P (A), d.h. A sei von B stochastisch unabhängig. Aus (4) folgt
dann
P (B)
P (B|A) = P (A)
= P (B),
P (A)
d.h. die stochastische Unabhängigkeit A’s von B impliziert die stochastische Unabhängigkeit B’s von A. Das Ergebnis kann man auch direkt aus (6) folgern: die
Produktregel gilt nur bei stochastischer Unabhängigkeit, und die rechte Seite von
(6) ist symmetrisch bezüglich P (A) und P (B). Kann man also von einem beobachteten Merkmal A nicht auf ein anderes Merkmal B schließen, so kann man auch
nicht von B auf A schließen2 .
Satz der Totalen Wahrscheinlichkeit Es seien A und B irgendzwei zufällige
Ereignisse. Das Ereignis A kann zusammen mit B auftreten oder zusammen mit
¬B (B tritt nicht ein), also entweder mit B oder mit ¬B. Das heißt
P (A) = P [(A ∩ B) ∪ (A ∩ ¬B)] = P (A ∩ B) + P (A ∩ ¬B).
Es ist aber
P (A ∩ B) = P (A|B)P (B),
P (A ∩ ¬B) = P (A|¬B)P (¬B).
Somit muß
P (A) = P (A|B)P (B) + P (A|¬B)P (¬B)
(7)
gelten. Was hier wie eine Spielerei mit Formeln aussehen mag, hat gleichwohl eine
große Bedeutung für die Praxis. Man bildet zB eine Stichprobe von Patienten
und schaut nach, wie hoch der Anteil der Patienten ist, bei denen eine Therapie
erfolgreich ist (das Ereignis A ist eingetreten). Bei der Diskussion des Anteils,
dem ja die Wahrscheinlichkeit P (A) entspricht, wird nicht berücksichtigt, dass
einige Patienten Patientinnen sind, andere aber Patienten. Einige gehören also
hzur Klasse B (weiblich), andere zur Klasse ¬B (nicht weiblich = männlich). Die
nähere Diskussion der Daten kann zeigen, dass P (A|B) einen sehr großen Wert
hat, sagen wir P (A|B) = .9, dass aber P (A|¬B) = .3 ist. Bei den Frauen ist die
Therapie meistens erfolgreich, bei den Männern ist sie meistens nicht erfolgreich.
Die Stichprobe enthalte zu 80% Frauen, und nur 20% Männer. Dann ist
P (A) = .78 = .9 × .8 + .3 × .2,
d.h. im Durchschnitt ist die Therapie zu 78% erfolgreich. Würde man annehmen,
dass dieser Befund bei Frauen und Männern gleichermaßen gilt, so würde man
2 Gemeint
sind natürlich stochastische Schlüsse!
8
sicherlich einen Fehler begehen. Bei der Interpretation der Daten aus Kontingenztabellen wird auf die Wirkung von Variablen, die zunächst nicht direkt beachtet
wurden, zurückgekommen (→ Simpsonsches Paradox).
Der Satz (7) läßt sich auf beliebig viele Ereignisse B1 , . . . , Bn verallgemeinern.
Zunächst sei daran erinnert, dass B ∪ ¬B stets das sichere Ereignis ist, denn
es tritt entweder B oder ¬B ein, und natürlich schließen sich B und negB aus.
Allgemein wird man also fordern, dass Bi ∩ Bj = ∅ für i 6= j, dh irgendzwei der
Ereignisse B1 , . . . , Bn können nicht gleichzeitig auftreten (∅ ist das Zeichen für
das unmögliche Ereignis). Darüber hinaus muß B1 ∪ · · · ∪ Bn = Ω gelten, wobei
Ω für das sichere Ereignis steht. Dann hat man den allgemeinen Satz der Totalen
Wahrscheinlichkeit
P (A) = P (A|B1 )P (B1 ) + · · · + P (A|Bn )P (Bn ) =
n
X
P (A|Bi )P (Bi ).
(8)
i=1
Anwendung Die folgende Betrachtung wird erst in Abschnitt 2.9 (Simpsonsches
Paradox) relevant, wenn die hier hergeleiteten Formeln (11) und (12) benötigt
werden.
Kontingenztabellen können mehr als 2-dimensional sein – so kann ein Faktor
die Therapieform (A oder B) sein, ein zweiter das Geschlecht, und ein dritter der
Erfolg (d.h. eine Therapie kann erfolgreich oder nicht erfolgreich sein). Man kann
dann die Wahrscheinlichkeit eines ”Erfolges” (A) betrachten unter der Bedingung,
dass die Therapie B bei einer Patientin (C) angewendet wurde, also P (A|B, C).
Die Definition der bedingten Wahrscheinlichkeiten überträgt sich auf diesen Fall:
P (A|B, C) =
P (A ∩ B ∩ C)
.
P (B ∩ C)
(9)
Natürlich kann man dann auch den Fall betrachten, dass A unter der Bedingung
B ∩ ¬C auftritt, und hat dann
P (A|B, ¬C) =
P (A ∩ B ∩ ¬C)
.
P (B ∩ ¬C)
(10)
Wie beim Satz der Totalen Wahrscheinlichkeit kann man nun die Wahrscheinlichkeit von A unter der Bedingung B betrachten, wobei B zusammen mit C oder mit
¬C auftritt. Es ist
P (A|B)
=
=
=
=
P (A ∩ B)
P [(A ∩ B ∩ C) ∪ (A ∩ B ∩ ¬C)]
=
P (B)
P (B)
P (A ∩ B ∩ C) P ((A ∩ B ∩ ¬C)
+
P (B)
P (B)
P (A|B ∩ C)P (B ∩ C) P (A|B ∩ ¬C)P (B ∩ ¬C)
+
P (B)
P (B)
P (A|B ∩ C)P (C|B)P (B) P (A|B ∩ ¬C)P (¬C|B)P (B)
+
P (B)
P (B)
so dass man
P (A|B) = P (A|B ∩ C)P (C|B) + P (A|B ∩ ¬C)P (¬C|B)
9
(11)
erhält, weil sich P (B) ja herauskürzt. Auf analoge Weise erhält man
P (A|¬B) = P (A|¬B ∩ C)P (C|¬B) + P (A|¬B ∩ ¬C)P (¬C|¬B).
(12)
Man beachte noch einmal, dass es sich bei den Gleichungen (11) und (12) um
Anwendungen des Satzes der Totalen Wahrscheinlichkeit handelt, obwohl links
nicht wie in (8) einfach nur P (A) steht, sondern die bedingten Wahrscheinlichkeiten
P (A|B) und P (A|¬B) stehen. Es geht eben um die dritte Einflußgröße C, die unter
der Bedingung B oder ¬B auf A einwirken kann.
Anwendung auf Kontingenztabellen Man habe nun eine Kontingenztabelle
mit den ”Faktoren” A und B vorliegen. A sei Körperbau, B sei mentaler Zustand,
und es gebe I Stufen A1 bis AI für A, die also bestimmte Körperbautypen sind,
und J Stufen B1 bis BJ für die verschiedenen mentalen Zustände, die betrachtet
werden. Unter bestimmten Erhebungsbedingen sind Ai und Bj , i = 1, . . . , I und
j = 1, . . . , J zufällige Ereignisse, wenn nämlich zufällig eine Person gewählt wird
und man dann diagnostiziert, dass sie den Körperbautyp Ai und den mentalen
Zustand Bj hat. Man ist daran interessiert, zu wissen, ob es eine zumindest stochastische Abhängigkeitsbeziehung zwischen dem Körperbau und dem mentalen
Zustand gibt. Gibt es sie nicht, so gilt
P (Bj |Ai ) = P (Bj ) für alle i, j
(13)
und damit auch P (Ai |Bj ) = P (Ai ) für alle i, j. Nach der Produktregel bedeutet
dies, dass
P (Ai ∩ Bj ) = P (Ai )P (Bj ) für alle i, j
(14)
Natürlich kennt man die Wahrscheinlichkeiten P (Ai ), P (Bj ), P (Ai ∩ Bj ) nicht,
man muß sie also aus den Daten, d.h. aus einer Tabelle schätzen. Es läßt sich zeigen3 , dass die relativen Häufigkeiten, die sich aus den Daten der Tabelle berechnen
lassen, akzeptable Schätzungen sind. Man kann zunächst die Randsummen berechnen:
J
I
I X
J
X
X
X
ni+ =
nij , n+j =
nij , n = n++ =
nij
(15)
j=1
i=1
i=1 j=1
ni+ ist die Häufigkeit, mit der die Stufe Ai insgesamt beobachtet wurde, n+j ist
die Häufigkeit, mit der die Stufe Bj insgesamt beobachtet wurde, und n ist die
Gesamtzahl der Fälle. Man erhält daraus die Schätzungen
P̂ (Ai ) =
ni+
,
n
P̂ (Bj ) =
n+j
,
n
P̂ (Ai ∩ Bj ) =
nij
.
n
(16)
Für die bedingten Wahrscheinlichkeiten P (Ai |Bj ) und P (Bj |Ai ) erhält man
P̂ (Ai |Bj ) =
nij
,
n+j
P̂ (Bj |Ai ) =
nij
.
ni+
(17)
Man mache sich noch einmal klar, dass diese Ausdrücke genau die Definitin der bedingten Wahrscheinlichkeiten entsprechen: für P (Ai |Bj ) fokussiert man zunächst
auf die Anzahl n+j der Fälle, auf die Bj zutrifft, und setzt dann die Anzahl nij , auf
die sowohl Ai wie auch Bj zutreffen, dazu in Beziehung: P̂ (Ai |Bj ) = nij /n+j , etc.
3 Man zeigt dies durch Anwendung der Maximum-Likelihood-Methode, worauf an dieser Stelle
aber nicht eingegangen werden muß.
10
Man bemerke auch, dass man diese bedingten Wahrscheinlichkeiten für jede Kombination (Ai , Bj ) von Stufen betrachten kann, also nicht nur global P (A|B) oder
P (B|A) betrachtet. Man kann also die bedingten Wahrscheinlichkeiten P (Ai |Bj )
und P (Bj |Ai ) für alle i, j aus den Daten schätzen. Diese Schätzungen sind mit
Stichprobenfehlern behaftet, und es ist die Frage, ob sie mit der Nullhypothese,
dass nämlich die der stochastischen Unabhängigkeit von Ai und Bj verträglich
sind. Dazu berechnet man die Schätzungen für die nij unter der Annahme, dass
Ai und Bj stochastisch unabhängig voneinander sind. Nach der Produktregel muß
dann P (Ai ∩ Bj ) = P (Ai )P (Bj ) gelten. Setzt man die entsprechenden relativen
Häufigkeiten ein, so sollte bei Gültigkeit von H0 (globale stochastische Unabhängigkeit)
nij
ni+ n+j
n̂ij
≈
=
(18)
n
n n
n
gelten, wobei ≈ für ”approximativ” steht, denn eine exakte Gleichheit wird man
wegen der üblichen Stichproben”fehler” nicht erwarten können, sondern eben nur
eine angenäherte, und n̂ij ist die Häufigkeit für das Auftreten von (Ai , Bj ), die
man bei Unabhängigkeit der Merkmale erwarten kann. Multipliziert man diese
Gleichung mit n, so erhält man für die unter H0 erwartete Häufigkeit der Merkmalskombination (Ai , Bj )
ni+ n+j
.
(19)
n̂ij =
n
Damit sind alle Vorbereitungen getroffen worden, die notwendig sind, um sich
den log-linearen Analysen von Häufigkeitstabellen zuwenden zu können.
2
2.1
Log-lineare Analysen
Der Ansatz
Um H0 zu testen, muß man nur die tatsächlichen Häufigkeiten nij mit den unter
H0 erwarteten n̂ij , wie sie in (19) definiert wurden, vergleichen. Dieser Vergleich
geschieht mit dem üblichen χ2 -Test. Ergibt sich kein signifikanter χ2 -Wert, so ist
man fertig – es gibt keine Abhängigkeiten zwischen den Stufen von A und den Stufen von B. Ist der χ2 -Wert aber signifikant, so sagt einem dieser Wert noch nicht,
zwischen welchen Ai und Bj eine Abhängigkeit besteht. Um dies festzustellen,
müssen andere Überlegungen angestellt werden.
Hierzu werde ein kleiner Seitenblick auf die Varianzanalyse getan. Man habe
ein 2-dimensionales Design, man habe also zwei Faktoren, und man ist an der
Existenz von Haupt- und Wechselwirkungseffekten interessiert. Hierzu stellt man
ein allgemeines Modell auf, demzufolge für einen beliebigen Messwert xij (Stufe
Ai des Faktors A und Stufe Bj des Faktors B) die Zerlegung
xij = µ + αi + βj + γij + eij
(20)
gilt. αi und βj sind die Haupteffekte von A udn B und γij repräsentiert eine
Wechselwirkung zwischen den beiden Faktoren. Diese Größen werden als als deterministische Größen betrachtet, sie sind also keine zufälligen Größen, nur der
11
Fehler eij ist zufällig. Nimmt man vernünftigerweise4 an, dass der Fehler eij den
Erwartungswert 0 hat, so hat man
E(xij ) = E(µ + αi + βj + γij ) + E(eij ) = µ + αi + βj + γij .
(21)
Von Null verschiedene αi , βj und γij bewirken Abweichungen vom allgemeinen Mittelwert, der hier durch µ repräsentiert wird. Mit dem F -Test wird dann
geprüft, ob die αi , βj und γij gleich Null sind oder nicht. Der hier interessierende
Aspekt von (20) ist die Zerlegung von xij in die einzelnen Komponenten, die durch
die verschiedenen Stufen der unabhängigen Variablen erzeugt werden (oder auch
nicht).
In einer Häufigkeitstabelle hat man aber eben Häufigkeiten nij und keine
Messwerte xij , und die Frage, ob man für die nij ein lineares Modell wie (20) ansetzen kann, wurde schon in anderem Zusammenhang diskutiert. Für Häufigkeiten
gilt nij ≥ 0, sie können nicht negativ werden. Dieser Sachverhalt verbietet einen
direkten Ansatz, wie er durch (20) dargestellt wird. Bei der Poisson-Regression ist
man deshalb dazu übergegangen, nicht den Erwartungswert λ als lineare Funktion der unabhängigen Variablen anzusetzen, sondern statt dessen den Logarithmus
von λ. Es liegt also nahe, diesen Ansatz auch auf die Häufigkeiten nij anzuwenden:
nij = eµ+µi +µj +µij +εij
(22)
Hierin sind µ, µi , µj und µij ”freie” – also aus den Daten zu schätzende und nicht
vorher festgelegte – Parameter, die positiv oder negativ sein dürfen, und εij ist ein
”Fehler”. Der Ausdruck im Exponenten ist völlig analog zum varianzanalytischen
Ansatz gebildet worden, allerdings unterscheidet sich die Interpretation von der
bei der ANOVA. Während bei der ANOVA die Parameter additiv (einschließlich
des Wechselwirkungsterms µij ) in die Modellierung eines Messwerts xij eingehen,
wirken sie hier, also bei Häufigkeiten, multiplikativ :
nij = eµ+αi +βj +γij +εij = eµ eαi eβj eγij eεij .
(23)
Es gibt weitere Unterschiede zum ANOVA-Ansatz, wie sich in den folgenden Betrachtungen zeigt.
Aus (19) erhält man den Ausdruck5
log n̂ij = log ni+ + log n+j − log n.
(24)
Dieser Ausdruck steht in Analogie zu (20) für Messwerte: − log n entspricht µ,
log ni+ entspricht αi , und log n+j entspricht βj . Der Wechselwirkungsterm γij
tritt Konsequenz der Annahme, dass H0 gilt, nicht auf. Es liegt demnach nahe, für
den Fall der stochastischen Abhängigkeit von Ai und Bj einen zusätzlichen Term
in (24) einzuführen. Setzt man also
µ = − log n
µi+ = log ni+
µ+j log n+j ,
4 Wäre E(e ) = ē
ij
ij 6= 0, könnte man ihn in γij ”absorbieren”, dh der Wechselwirkungsterm
′ = γ + ē , und nach Umbenennung von γ ′ in γ
hieße dann γij
ij
ij
ij hätte man wieder ein Modell
ij
mit E(eij ) = 0. Ein systematischer Fehler E(eij ) 6= 0 ist eigentlich kein ”Fehler”, sondern eben
ein Teil der Wechselwirkung.
5 Zur Erinnerung: log(xy) = log x + log y, log(x/y) = log x − log y.
12
und benennt mit µij eine Größe, die die Assoziation zwischen Ai und Bi widerspiegelt, so kann man ganz allgemein
log nij = µ + µi+ + µ+j + µij
(25)
schreiben. Hier steht links nicht mehr log n̂ij , sondern log nij , denn es wird die
beobachtete Anzahl nij vollständig spezifiziert; vollständig deshalb, weil µij hier
eine unbekannte Größe ist, die eine mögliche Assoziation zwischen Ai und Bj
abbildet. Nur die µi+ und µ+j liegen fest, denn sie sind durch die Randhäufigkeiten
gegeben. Darüber hinaus fehlt in (25) der Fehlerterm εij , der im Ansatz (22) noch
aufgeführt worden war, um die Analogie zur ANOVA vollständig erscheinen zu
lassen. Der Punkt ist aber, dass man in einer 2-dimensionalen Tabelle nur eine
Kombination (Ai , Bj ) von Zeilen- und Spaltenkategorien hat und die spezifische
Interaktion γij bzw. µij und der Fehler εij nicht unabhängig voneinander geschätzt
werden können, – εij wird deshalb in γij bzw. µij ”absorbiert” und taucht deshalb
im Folgenden nicht mehr auf.
Da µij ein freier Parameter ist, erklärt der Ansatz (25) die Daten, also die nij ,
perfekt. Der Ansatz repräsentiert ein Modell für die nij , das mit freien Parametern,
hier den µij , ”gesättigt” ist; (25) heißt deshalb auch das saturierte Modell. Die µij
kann man immer finden, denn da µ, µi+ und µ+j ja ebenso wie die nij gegeben
sind, muß man nur die Differenz
log nij − (µ + µi+ + µ+j ) = µij
bilden, und im Allgemeinen wird man µij 6= 0 finden, – denn die nij enthalten ja,
wie oben ausgeführt wurde, Stichproben”fehler”, so dass auch im Falle stochastischer Unabhängigkeit µij 6= 0 sein wird. Hat man also ein signifikantes χ2 für die
Tabelle gefunden, so kann man davon ausgehen, dass zumindest einige µij tatsächlich und nicht nur zufällig von Null verschieden sind, und die gilt es herauszufinden.
Bevor diese Frage angegangen wird, soll noch eine Konsequenz von (25) aufgezeigt
werden.
Der Antilogarithmus von log nij ist
nij = eµ+µi+ +µ+j +µij .
(26)
Die rechte Seite ist eine Parametrisierung der nij , d.h eine bestimmte Art und
Weise, die nij durch theoretische Größen zu ”erklären”. Die wirkliche Erklärung
liegt in dem freien Parameter µij , der eine mögliche Assoziation, also Interaktion
zwischen den Stufen Ai und Bj abbildet. Man sieht, wie insbesondere µij auf die
Häufigkeit nij einwirkt:
nij = eµ+µi+ +µ+j eµij ,
d.h. der Interaktionsterm wirkt über den Faktor eµij (und damit natürlich auch auf
die Randsummen ni+ und n+j ). Für µij < 0 ist eµij < 1 und die Wechselwirkung
wirkt verringernd auf nij ein, und für µij > 1 ist eµij > 1 und die Wechselwirkung wirkt vergrößernd auf nij . Ist also Ai ein bestimmter Körperbautypus und
ist Bj ein bestimmter mentaler Zustand, so bedeutet µij 6= 0, dass es einen wie
auch immer gearteten Zusammenhang zwischen Ai und Bj gibt. Welcher Art dieser Zusammenhang ist, ist noch unklar, aber µij 6= 0 besagt zunächst einmal,
dass es überhaupt einen Zusammenhang gibt. Hat man die Existenz eines solchen
Zusammenhanges gesichert, so lohnt es sich auch, weitere Forschungen über die
13
Art des Zusammenhangs anzustellen, – hier etwa über Stoffwechselprozesse, die
den Leptosomen schlank sein lassen und andererseits die häufig zu beobachtende
Introvertiertheit bedingen.
Es sei Pij die Populationswahrscheinlichkeit, eine Person mit der Merkmalskombination
P (Ai , Bj ) zu finden. P̂ij = nij /n ist eine Schätzung für Pij . Es war
aber n = i,j nij , und mit Bezug auf (26) hat man
n=
J
I X
X
eµ+µi+ +µ+j +µij ,
i=1 j=1
so dass man
Pij = P
erhält.
eµ+µi+ +µ+j +µij
µ+µr+ +µ+s +µrs
r,s e
(27)
Die bedingte Wahrscheinlichkeit eines bestimmten mentalen Zustands, gegeben
ein bestimmter Körperbautypus, ist
P (Bj |Ai ) =
d.h.
nij
eµ+µi+ +µ+j +µij
eµ+µi+ +µ+j +µij
nij
= P µ+µi+ +µ+k +µik =
= µ+µi+ P µ+k +µik ,
ni+
ni+
e
ke
ke
eµ+j +µij
P (Bj |Ai ) = P µ +µ .
+k
ik
ke
(28)
Die Größe µij ist also ein Parameter einer Wahrscheinlichkeitsverteilung.
Um die Frage der Schätzung der freien Parameter anzugehen, die ja benötigt
werden, um herauszufinden, welche Abhängigkeiten existieren, müssen Fragen der
Stichprobenerhebung geklärt werden. Diese werden im folgenden Abschnitt behandelt.
2.2
2.2.1
Erhebungsweisen
Das produkt-multinomiale Schema
Dieses Schema ist dem einer Varianzanalyse analog: es gibt eine (oder mehrere)
unabhängige Variable und verschiedene Ausprägungen einer abhängigen Variablen.
Eine Gruppe von Vpn wird diesen Ausprägungen - Stufen - zugeteilt und es wird
bestimmt, welche Ausprägung der abhängigen Variablen sich bei ihr findet. Im
Unterschied zur VA wird aber nicht ein Meßwert erhoben, denn die Ausprägung der
abhängigen Variablen ist ja nur kategorial. Schlußfolgerungen über die Wirkung der
unabhängigen Variablen sollen über die Häufigkeiten, mit denen die Ausprägungen
der abhängigen Variablen auftreten, erreicht werden. Das Schema entspricht dem
der Tabelle 1: Es gibt I Faktorstufen und J Ausprägungen bzw. Kategorien für
die abhängige Variable. Die Randsummen ni+ , i = 1, · · · , I werden dabei vom
Experimentator/Planer der Untersuchung festgelegt. Die Häufigkeiten nij in der
i-ten Zeile sind jeweils multinomial verteilt:
p(ni1 , · · · , niJ ) =
I
Y
ni+ !
ni1
niJ
Pi1
· · · PiJ
n
!n
!
·
·
·
n
!
iJ
i=1 i1 i2
14
(29)
Tabelle 1: Produkt-multinomiales Schema
Faktorstufen
1
2
..
.
n11
n21
Reaktion
n12 · · ·
n22 · · ·
..
.
n1J
n2J
Σ
n1+
n2+
..
.
I
nI1
nI2
···
nIJ
nI+
Unter der Hypothese H0 :
P1j = P2j = · · · = PIj ,
für alle j
(30)
ist die erwartete Häufigkeit
n̂ij = ni+ Pij
in der der Zelle (i, j) der Tafel 1 durch
n̂ij =
ni+ n+j
n++
(31)
gegeben. (ni+ ist vorgegeben!).
Beispiel 2.1 Es ist bekannt, dass die Fokussierung der Aufmerksamkeit auf bestimmte Aspekte eines Reizmusters die Klassifikation des Musters beeinflußt. So
kann die Fokussierung auf ein irrelevantes Merkmal die Wahrscheinlichkeit einer
korrekten Klassifikation verändern, und zwar in Abhängigkeit von der SOA (Stimulus Onset Asynchrony); dies ist die Zeitdauer zwischen der Darbietung eines Reizes
und eines Maskierungsreizes. Die unabhängige Variable sei der Wert der SOA, die
”Reaktion” sei die Entscheidung für ein bestimmtes Muster Mi , i = 1, . . . , 4, wobei
das tatsächlich gezeigte Muster stets das gleiche ist: für jede SOA wird das ReizTabelle 2: Klassifikation und SOA
SOA
30 ms
40 ms
50 ms
Σ
Reaktion (= Muster)
M1 M2 M3 M4
17
20
17
16
13
16
20
21
11
15
18
26
41
51
55
47
Σ
70
70
70
210
muster also genau siebzigmal gezeigt; zu entscheiden ist, ob sich die Verteilungen
der Antworten pro SOA unterscheiden.
2.2.2
Das multinomiale Schema
Hier werden Klassen von Kategorien (unabhängige Variablen, Faktoren im Sinne
der VA) definiert, dann wird eine Stichprobe mit festem Umfang ausgewählt, die
15
dann nach Maßgabe des Vorhandenseins einer spezifischen Kategorienkombination
aufgeteilt wird.
Beispiel 2.2 Alle Insassen einer Reihe von psychiatrischen Landeskrankenhäusern werden (i) bezüglich ihres Körperbautyps und (ii) bezüglich ihrer psychischen
Erkrankung klassifiziert. Es ergaben sich die folgenden Daten (Westphal (1931))
Mit ”erw.” werden die unter der Annahme, dass Körperbau und Erkrankung unabTabelle 3: Körperbau und psychische Erkrankung
Erkrankung
Typ
pyknisch
erw.
athletisch
erw.
leptosom
erw.
dysplastisch
erw.
atypisch
erw.
man. dep.
Epilepsie
Schizophr.
879
282
91
237
261
549
15
170
115
123
1361
83
312
435
262
378
608
444
187
165
136
1505
717
1085
884
911
2632
2114
550
652
450
471
5233
nij
n̂ij
nij
n̂ij
nij
n̂ij
nij
n̂ij
nij
n̂ij
Σ
Σ
1679
1410
3271
1009
730
8099
χ2 = 2641.56, df = 8, p = .000
hängig voneinander sind, erwarteten Häufigkeiten n̂ij bezeichnet; die Differenzen
zwischen nij und n̂ij legen die Existenz von Abhängigkeiten nahe; der gefundene
χ2 -Wert ist hochsignifikant. In jedem Fall ist die Verteilung der Häufigkeiten in den
Zeilen der Tabelle wieder multinomial. Im Unterschied zum produkt-multinomialen
Schema liegen aber die Randhäufigkeiten nicht fest.
2.2.3
Das Poisson-Schema
In Beispiel 2.2 ist die Anzahl der zu beobachtenden Personen vor der Untersuchung
festgelegt worden, denn es sollten ja alle Patienten klassifiziert werden. Damit liegt
die Gesamtzahl fest. Die Zeit, bis alle Patienten beobachtet wurden, ist damit nicht
festgelegt.
Umgekehrt kann man die Zeitdauer festlegen und dafür die Anzahl der Personen
offen lassen. Diese Anzahl wird dann eine zufällige Veränderliche. Man könnte etwa
alle Neuzugänge in die Landeskrankenhäuser für eine bestimmte Zeitdauer - etwa
ein Jahr - nach ihrem Körperbau und der Art ihrer Erkrankung klassifizieren. Da
16
die einzelnen Personen unabhängig voneinander in ein Krankenhaus eingeliefert
werden, kann man annehmen, dass die Häufigkeiten Poisson-verteilt sind, d.h.
n
P (K = nij |λij ) = e−λij
λijij
,
nij !
nij = 0, 1, 2, . . .
(32)
λij ist der Parameter für Patienten mit dem Körperbautypus Ai und dem mentalen Zustand Bj . Für jede Zelle der Tabelle hat man damit einen freien Parameter
λij – und damit würde man nichts erklären, da man ja nur die Daten paraphrasieren würde, statt der nij würde man nun λij betrachten. Die interessante Frage
wäre dann, ob es zwischen den λij eine Beziehung gibt, die eine systematische
Beziehung zwischen den Ai und den Bj reflektiert. Man könnte λij = λi· für alle
j postulieren, d.h. die Häufigkeitsverteilungen würden nur von der Stufe Ai , nicht
aber von den Bj abhängen. Dann würde man aber für eine gegebene Stufe Ai die
jeweils gleichen Häufigkeiten für die verschiedenen Bj vorhersagen, d.h. die die
ni1 , ni2 , . . . , niJ sollten sich nur zufällig voneinander unterscheiden. Wenn diese
Hypothese im Lichte der Daten als unwahrscheinlich erscheint, aber H0 (stochastische Unabhängigkeit) angenommen wird, kann man
λij =
λi+ λ+j
λ++
(33)
postulieren. λi+ ist der Poisson-Parameter für die Randhäufigkeit von Ai , und λ+j
ist der Parameter für die Randhäufigkeit von Bj , λ++ ist der Poisson-Parameter
für das Gesamt-n. λij setzt sich also multiplikativ (i) aus einem für Ai und (ii)
einem für Bj spezifischen Faktor zusammen. Diese Hypothese heißt multiplikative
Hypothese oder multiplikatives Poisson-Modell.
Motivation für (33): Eine Motivation für diese Annahme ergibt sich
zunächst aus der allgemeinen Definition der Kovarianz zweier zufälliger
Veränderlicher X und Y :
Kov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ).
Im Falle der stochastischen Unabhängigkeit gilt,wie sich allgemein zeigen läßt,
E(XY ) = E(X)E(Y ),
so dass für den Fall der stochastischen Unabhängigkeit Kov(X, Y ) = 0
folgt. Sind die Randhäufigkeiten ni+ und n+j stochastisch unabhängig,
weil die Ai und Bj stochastisch unabhängig sind, so gilt also für den
Erwartungswert von ni+ n+j
E(ni+ n+j ) = E(ni+ )E(n+j ) = λi+ λj+ ,
denn E(ni+ ) = λi+ , E(n+j ) = λ+j . Weiter ist der Erwartungswert
einer Summe von stochastisch unabhängigen zufälligen Veränderlichen
gleich der Summe der entsprechenden Erwartungswerte:
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ),
und im Falle von Poisson-Variablen hat man dann insbesondere
λ++ = λ11 + · · · + λIJ .
17
(34)
λ++ entspricht dem erwarteten Wert von n. (33) entspricht demnach
dem Ausdruck n̂ij = ni+ nj+ /n für die Hypothese der Unabhängigkeit
der Kategorien Ai und Bj .
Der Wert der Parameter λij hängt natürlich von der gewählten Zeitdauer der
Beobachtung ab.
Satz 2.1 Gemäß der Unabhängigkeitshypothese gilt n̂ij = ni+ n+j /n++ . Ist das
Erhebungsschema
1. das Poisson-Schema, so ist diese Hypothese äquivalent dem Modell (19), ohne
weitere Nebenbedingungen;
2. das produkt-multinomiale Schema, so ist die Hypothese äquivalent dem Modell (19) mit der Nebenbedingung
X
A
B
ni+ =
(35)
eµ+µi +µj , j = 1, · · · , J.
j
3. das multinomiale Schema, so ist die Hypothese äquivalent zu (19) mit der
Nebenbedingung
X
A
B
n=
eµ+µi +µj .
(36)
i,j
Beweis: Vergl. Fahrmeir und Hamerle (1984), p. 480.
Spricht man also vom log-linearen Unabhängigkeitsmodell, so müssen die mit dem
jeweilig betrachteten Schema einhergehenden Restriktionen berücksichtigt werden.
2.3
Parameter, Logits und Kreuzproduktverhältnisse.
Der Einfachheit halber sei J = 2. Man kann dann die Logits
log
p(B1 |Ai )
ni1
= log
p(B2 |Ai )
ni2
betrachten. Für die nij gelte das Modell (??). Es werde für den Augenblick angenommen, dass die Hypothese der Unabhängigkeit gilt, so dass die Interaktionsterme µAB
ij alle verschwinden. Eingesetzt ergibt sich
log
ni1
B
A
B
B
B
= µ + µA
i + µ1 − µ − µi − µ2 = µ1 − µ2
ni2
(37)
Die Hypothese der Unabhängigkeit impliziert also, dass die Logits für alle i identisch sind.
Die Betrachtung der Odd-Ratios erlaubt eine Interpretation der Parameter
des loglinearen Modells. Es sei außerdem (der Einfachheit halber) I = 2. Das
Kreuzproduktverhältnis für diese Tabelle ist
Θ=
π11 π22
π12 π21
18
Man findet
log Θ
= log n11 + log n22 − log n12 − log n21
B
AB
A
B
AB
= µ + µA
1 + µ1 + µ11 + µ2 + µ2 + µ22
B
AB
A
B
AB
−(µ + µA
1 + µ2 + µ12 ) − (µ + µ2 + µ1 + µ21 )
AB
AB
AB
= µAB
(38)
11 + µ22 − µ12 − µ21
P AB
P AB
AB
Es gelten die Nebenbedingungen i µij =
= 0, und µAB
11 = µ22 =
j µij
AB
−µAB
12 = −µ21 . Deshalb folgt
log Θ = 4µAB
11
(39)
Andererseits ist Θ der Assoziationsparameter der 2×2-Tabelle. Gilt die Hypothese
der Unabhängigkeit, so ist Θ = 1 und log Θ = 0. Diese Bedingung ist genau dann
erfüllt, wenn in (39) die Bedingung µAB
11 = 0 erfüllt ist.
2.4
Tests für die Güte der Anpassung
Mit dem Pearsonschen χ2 -Test kann die Überzufälligkeit der gefundenen Assoziationen zwischen den Zeilen- und Spaltenkategorien geprüft werden; dies gilt
auch für höherdimensionale Tabellen. Allgemein prüft man mit diesem Test, ob
die Wahrscheinlichkeiten einer Multinomialverteilung bestimmten Hypothesen genügen. Für eine 2-dimensionale Tabelle hat man
X2 =
X (nij − n̂ij )2
,
n̂ij
i,j
df = (I − 1)(J − 1)
(40)
Für hinreichend große Stichproben gilt X 2 ∼ χ2 ,d.h. die Verteilung von X 2 entspricht dann der einer χ2 -Verteilung.
Ein allgemeiner Ansatz, die Nullhypothese H0 gegen eine Alternativhypothese
H1 zu testen, besteht darin, einen Likelihood-Ratio-Test zu konstruieren. Dazu
wird die maximale Likelihood der Daten (i) unter H0 und (ii) unter H1 bestimmt
und dann der Quotient Λ dieser maximalen Likelihoods berechnet. Wilks (1935,
1938) hat gezeigt, dass dann die Größe
def
G2 = −2 log Λ ∼ χ2 ,
H0 ,
n→∞
(41)
erfüllt, d.h. −2 log Λ ist für hinreichend großes n approximativ wie χ2 unter der
Nullhypothese verteilt. G2 heißt auch Likelihood-Ratio-χ2 -Statistik. Für das multinomiale Schema gilt insbesondere
X
ni+ n+j
G2 = −2 log Λ = 2
nij log(nij /n̂ij ), n̂ij =
(42)
n++
i,j
Die Parameter sind im allgemeinen Fall durch die πij gegeben, sie unterliegen der
Nebenbedingung
X
πij = 1
i,j
19
Deswegen können IJ − 1 von ihnen frei gewählt werden, das IJ-te liegt dann fest.
Damit ist die Anzahl der Freiheitsgrade gleich IJ − 1. Unter H0 gilt aber
πij = πi+ π+j
P
P
Da wiederum i πi+ = j π+j = 1 gilt, können I − 1 Parameter πi+ und J − 1
Parameter π+j frei gewählt werden, also insgesamt I−1+J −1. Nun ist G2 aber eine
Differenz von approximativ χ2 -verteilten Größen; die Anzahl der Freiheitsgrade für
G2 ist dann durch
IJ − 1 − (I − 1 + J − 1) = IJ − I − (J − 1) = (I − 1)(J − 1).
gegeben.
X 2 konvergiert im allgemeinen schneller als G2 gegen die χ2 -Verteilung; für
n/(IJ) < 5 ist die Approximation der Verteilung für G2 durch die χ2 -Verteilung
eher schlecht.
Alle Betrachtungen übertragen sich auf den höherdimensionalen Fall.
2.5
Verallgemeinerung: 3-dimensionale Tafeln
Bekanntlich sind Korrelationen nur mit Vorsicht zu interpretieren: das bekannte Beispiel über den Zusammenhang zwischen Alkoholkonsum in den USA und
der Häufigkeit, mit der dort der Priesterberuf gewählt wird, lehrt, dass erst die
Betrachtung weiterer Variablen zu einer sinnvolleren Interpretation führt. Dieser
Sachverhalt muß auch bei der Diskussion von Kontingenztabellen berücksichtigt
werden. So kann ein Zusammenhang zwischen zwei Variablen durch die Wirkung
einer oder mehrerer nicht berücksichtigter Variablen verdeckt werden, oder er existiert nur scheinbar. Zur Verdeutlichung werden jetzt 3-dimensionale Tabellen betrachtet.
Die drei Variablen (Klassen von Kategorien) seien A, B und C, mit jeweils I, J
und K Kategorien Ai , Bj und Ck . nijk sei die Häufigkeit in der (i, j, k)-ten Zelle.
Die Wahrscheinlichkeit, eine Beobachtung in der (i, j, k)-ten Zelle zu machen, sei
Pijk . Ein Beispiel ist die Tabelle 4, in der Daten zur Verhängung der Todessrafe in
den USA zusammengefasst wurden (Radelet, 1981), bei der jeder Faktor allerdings
nur zwei Stufen hat.
Tabelle 4: Verhängung der Todestrafe in den USA
Angeklagte
weiß
schwarz
Opfer
weiß
schwarz
weiß
schwarz
Todesstrafe
ja
nein
19
132
0
9
11
52
6
97
Anteil (ja)
.126
.000
.175
.058
Aus der 3-dimensionalen Häufigkeitstabelle lassen sich auf verschiedene Weise
2-dimensionale Tabellen bilden:
20
1. Partialtabellen Dies sind Tabellen, die durch einen ”Schnitt” durch die 3dimensionale Tabelle entstehen, der durch eine Stufe einer der drei Faktoren
(Variablen, Klassen) entsteht. Man hält z.B. Ai fest und betrachtet für diese
Stufe die Tabelle B × C. In den Zellen dieser Tabelle stehen die Häufigkeiten
ni;jk mit i = konstant. Die Abhängigkeiten in einer Partialtabelle heißen
”partielle Assoziationen”.
Tabelle 5: Partialtabellen
Opfer: weiss
Todesstrafe
Täter +
weiß 19
132
schwarz 11
52
Σ 30
184
Opfer: schwarz
Todesstrafe
Täter +
weiß 0
9
schwarz 6
97
Σ 6
106
Σ
151
63
214
Σ
9
103
112
2. Marginaltabellen Tabellen dieser Art entstehen, wenn über einen Faktor (Variable, Klasse) aggregiert, d.h. summmiert wird. Summiert man über alle
Stufen von A, so entsteht
P wieder eine B × C-Tabelle, in deren Zellen die
Häufigkeiten n+jk =
i nijk stehen. Die Abhängigkeiten in einer Marginaltabelle heißen ”marginale Assoziationen”. Die Assoziationen in Marginaltabellen können sich sehr von denen in Partialtabellen unterscheiden; dieses
Phänomen ist als Simpsons Paradoxon bekannt, das wegen seiner praktischen
und grundsätzlichen Bedeutung in Abschnitt 2.9 ausführlich diskutiert wird.
Bevor man eine Marginaltabelle betrachtet, muß die Frage der Aggregierbarkeit diskutiert werden; hierauf wird später (Abschn. 2.9) noch ausführlich
eingegangen.
Beispiel 2.3 Es soll die Hypothese, dass in den USA des Mordes angeklagte
Schwarze häufiger zum Tode werden als des Mordes angeklagte Weiße, – Tabelle
6 enthält die Daten. Demnach ist
Tabelle 6: Verhängung der Todesstrafe in den USA – Aggregation über Opfer
Angeklagte
weiß
schwarz
Σ
Todesstrafe
ja
nein
19
141
17
149
36
290
Σ
160
166
326
19
17
= .135, P (T S|s) =
= .114,
141
149
so dass es den Anschein hat, dass Schwarze weniger häufig zum Tode verurteilt
werden als Weiße (T S = Todesstrafe, w weiß, s schwarz). Betrachtet man noch
den Odds-Ratio als Assoziationsmaß, so findet man
19 × 149
Θ=
= 1.181
141 × 17
P (T S|w) =
21
Es ist zwar Θ 6= 1, so dass eine Abhängigkeit existieren könnte. Andererseits weicht
der Wert nicht stark von 1 ab, so dass der Wert von Θ auch mit der Hypothese
der Unabhängigkeit verträglich sein könnte. Nach (39) ist log Θ = 4µAB
11 , und
log 1.181 ≈ .072. In bezug auf (41) entspricht dies G2 = .072 bei df = (I − 1)(J −
1) = 1 Freiheitsgraden, und dieser Wert ist, wie auch der ”klassische” χ2 Wert
χ2 = .22, nicht signifikant (Wahrscheinlichkeit eines solchen Wertes: p = .6379.)
Es wird später gezeigt werden, dass der durch Tabelle 6 suggerierte Sachverhalt
(kein racial bias) nicht ganz so einfach ist wie er sich nach diesem Test darstellt.
Die log nijk lassen sich stets in der Form eines saturierten Modells darstellen:
B
C
AB
AC
BC
ABC
log nijk = µ + µA
i + µj + µk + µij + µik + µjk + µijk
(43)
B
C
Die Parameter µA
i , µj und µk repräsentieren wieder ”Haupteffekte”, die durch
die Randsummen gegeben sind, die je nach Erhebungsdesign vorgegeben sind oder
nicht. Parameter wie µAB
bilden Wechselwirkungseffekte ab, die wie schon bei
ij
2-dimensionalen Tafeln die oft wirklich interessierenden Effekte sind. Sie sind wie
folgt definiert:
µ =
1 X
log nijk
IJK
(44)
1 X
log nijk − µ
JK
(45)
1 X
log nijk − µ
IK
(46)
1 X
log nijk − µ
IJ i,j
(47)
i,j,k
µA
i
=
j,k
µB
j
=
i,k
µC
k
=
µAB
ij
=
µAC
ik
=
µBC
jk
=
µABC
ijk
1 X
B
log nijk − µA
I − µj
K
k
1X
C
log nijk − µA
i − µk − µ
J j
1X
C
log nijk − µB
j − µk − µ
I i
B
C
AB
AC
BC
= log nijk − µA
i − µj − µk − µij − µik − µjk
(48)
(49)
(50)
(51)
Man rechnet durch Einsetzen leicht nach, dass die folgenden Bedingungen erfüllt
sind:
X
X
X
µA
=
µB
µC
(52)
i
j =
k
i
j
X
µAB
i
X
µBC
jk
=
i
j
k
X
µAB
ij
X
µBC
jk
j
=
k
22
=0
X
µAC
ik
=
X
µAC
ik
=
X
µABC
=
ijk
i
X
i
µABC
ijk
k
j
X
µABC
=0
ijk
k
Die Gleichung (43) zusammen mit den Nebenbedingungen (53) definiert das saturierte 3-dimensionale loglineare Modell dar. Es gelten die folgenden Bezeichnungsweisen:
• µ ist das Gesamtmittel der logarithmierten, zu erwartenden Häufigkeiten,
B
C
• µA
i , µj und µk heißen Haupteffekte der drei Variablen A, B und C,
AC
BC
• µAB
ij , µik und µjk heißen Wechselwirkungs- oder Interaktionsterme 1. Ordnung,
• µABC
sind die Wechselwirkungs- oder Interaktionsterme 2. Ordnung, bzw.
ijk
Drei-Faktor-Interaktionen.
• Mit µA , µB , · · ·, µAB etc werden die Haupt- und Interaktionsterme allgemein
bezeichnet.
Das Modell (43) ist eigentlich ”nur” eine Reparametrisierung der Daten und kann
deshalb stets angepaßt werden. Interessanter sind deshalb Modelle, bei denen bestimmte Interaktionsterme weggelassen werden. Weitere Nebenbedingungen ergeben sich durch die spezielle Erhebungsweise einer Untersuchung.
2.6
2.6.1
Typen von Unabhängigkeit
Das Modell (AB/AC/BC)
Eine erste Vereinfachung des Modells (43) ergibt sich, wenn µABC = 0; man erhält
B
C
AB
AC
BC
log nijk = µ + µA
i + µj + µk + µij + µik + µjk
(53)
In bezug auf das Beispiel 2.7 bedeutet µABC = 0, dass keine spezifischen Beziehungen zwischen A der Farbe des Täters, der des Opfers B und der Verhängung der
Todesstrafe C bestehen; natürlich sind noch Interaktionen µAB 6= 0, µAC und µBC
möglich. Die Wechselwirkung A × B bedeutet, dass es eine Abhängigkeit zwischen
der Farbe des Täters und der des Opfers gibt (Weiße bringen nur Schwarze um und
umgekehrt, oder Weiße töten nur Weiße, Schwarze aber Weiße und Schwarze, etc.),
Interaktionen der Form A × C und B × C signalisieren, dass die Todesstrafe in Abhängigkeit von der Hautfarbe des Täters und/oder des Opfers abhängt. µABC = 0
bedeutet, dass die Wirkung der Farbe des Opfers stets gleich ist, unabhängig von
der Farbe des Täters, und dass die Wirkung der Farbe des Täters unabhängig von
der Farbe des Opfers ist.
Es sei andererseits µABC 6= 0. Eine mögliche Form dieser Abhängigkeit besteht
darin, dass etwa für A × C keine Abhängigkeit von B2 (Farbe des Opfers ist
schwarz) gibt; wenn ein Schwarzer wegen Mordes angeklagt wird, so kann das
Todesurteil von seiner Hautfarbe begünstigt werden, aber die Tatsache, dass er
einen Schwarzen getötet hat, ist ohne Belang. War sein Opfer aber weiß (B2 ), so
kann dies die Wahrscheinlichkeit eines Todesurteils erheblich erhöhen. Es gibt also
einen Zusammenhang zwischen A × C und B2 .
23
2.6.2
Das Modell der bedingten Unabhängigkeit
Man kann die Beziehung zwischen A und B betrachten und dabei die ”Werte” von
C kontrollieren.
Definition 2.1 Es sei Ck die k-te Kategorie des Faktors C, und es sei TAB|Ck die
Kontingenztabelle für die Faktoren A und B für Ck ; TAB|Ck ist die k-te Scheibe
aus der 3-dimensionalen Tafel A × B × C. Weiter sei Pij|k die Wahrscheinlichkeit
für eine Beobachtung Ai , Bj , gegeben die Kategorie Ck ; es ist Pij|k = Pijk /P++k .
Gilt
Pij|k = Pi+|k P+j|k , für alle i, j
(54)
so heißen A und B bedingt unabhängig, gegeben Ck . Gilt
Pij|k =
Pi+k P+jk
,
P++k
für alle i, j, k
(55)
so heißen A und B unabhängig, gegeben C; A und B sind dann unabhängig für
alle Kategorien von C.
Sind A und B bedingt unabhängig, gegeben C, so gilt das loglineare Modell
B
C
AC
BC
log nijk = µ + µA
i + µj + µk + µik + µjk
(56)
In diesem Modell soll also µAB = µABC = 0 gelten. In bezug auf das Beispiel soll
es also keine Interaktion zwischen der Hautfarbe des Täters und der des Opfers
geben und darüber hinaus gibt es keine Abhängigkeit zwischen der Hautfarbe von
Täter, Opfer und Verhängung der Todesstrafe. Die nijk lassen sich dann gemäß
nijk =
ni+k n+jk
n++k
(57)
voraussagen. Es sei n die Gesamtzahl der Beobachtungen; dann ist nijk = nPijk
und es folgt
Pi+k P+jk
Pijk =
(58)
i++k
Dividiert man beide Seiten noch einmal durch P++k , so erhält man
Pi+k P+jk
Pijk
=
P++k
P++k P++k
Es ist Pijk = p(Ai ∩ Bj ∩ Ck ), und es ist
p(Ai ∩ Bj ∩ Ck ) = p(Ai ∩ Bj |Ck )p(Ck )
oder
p(Ai ∩ Bj ∩ Ck )
= p(Ai ∩ Bj |Ck )
p(Ck )
Nach (59) muß aber auch
p(Ai ∩ Bj ∩ Ck )
p(Ai ∩ Bj ) p(Bj ∩ Ck )
=
p(Ck )
p(Ck )
p(Ck )
gelten, und damit
p(Ai ∩ Bj |Ck ) = p(Ai |Ck )p(Bj |Ck ).
Dies heißt aber, dass A und B bedingt unabhängig, gegeben Ck sind.
24
(59)
2.6.3
Unabhängigkeit von einer Variablen, z.B. AC/B
Man kann auch ein Modell betrachten, das entsteht, wenn µABC = 0 angenommen
wird und darüber hinaus zwei Interaktionen 1. Ordnung vernachlässigt werden,
d.h.
µABC = µAB = 0
Definition 2.2 Der Faktor B ist gemeinsam unabhängig6 von A und C, wenn
Pijk = Pi+k P+j+
(60)
gilt.
Hier kann man die Kombinationen von A und C als ”Werte” einer neuen Variablen (Faktoren) AC ansehen, und die Faktoren B und AC sind unabhängig. Das
entsprechende loglineare Modell ist
C
AC
B
log nijk = µ + µA
i + µj + µk + µik .
Es folgt
nijk =
ni+k n+j+
n+++
(61)
(62)
und
p(Ai ∩ Bj ∩ Ck ) = p(Ai ∩ Bj )p(Ck )
(63)
Im Beispiel 2.7 bedeutet diese Form der Unabhängigkeit, dass das Ereignis, dass
die Todesstrafe verhängt wird, unabhängig von der Täter-Opfer-Kombination (bezüglich der Farben) ist.
2.6.4
Die vollständige Unabhängigkeit, A/B/C
Definition 2.3 Die Faktoren A, B und C heißen wechselseitig unabhängig, wenn
Pijk = Pi++ P+j+ P++k
(64)
gilt.
Dann folgt
log Pijk = log Pi++ + log P+j+ + log P++k
bzw.
B
C
log nijk = µ + µA
i + µj + µk .
(65)
Die wechselseitige Unabhängigkeit bedeutet dann, dass jeder Faktor gemeinsam
unabhängig von allen anderen ist.
6 jointly
independent
25
2.6.5
Hierarchische Modelle
Sind die Faktoren wechselseitig unabhängig, so ist B gemeinsam unabhängig von
A und C und A und B sind bedingt unabhängig.
Alle hier betrachteten Modelle entstanden sukzessive aus dem saturierten Modell; es wurde zuerst die Interaktion 2. Ordnung (µABC ) fortgelassen, aber unter Beibehaltung aller Interaktionen 1. Ordnung. Dann wurden Interaktionen der
1. Ordnung weggelassen, aber unter Beibehaltung aller Haupteffekte. Schließlich
kann man auch noch Haupteffekte vernachhlässigen. Jedenfalls werden die untergeordneten Effekte beibehalten, bis die jeweiligen übergeordneten Effekte alle
verschwunden sind. Modelle dieser Art heißen hierarchische Modelle.
Tabelle 7: Typen von Unabhängigkeit
2.7
Typ
Pijk
Assoziation
wechselseitig
Pi++ Pi+k P++k
keine
B gemeinsam von A und C
Pi+k P+j+
µAC
ik
A, B bedingt unabh. von C
Pi+k P+jk /P++k
BC
µAC
ik + µjk
Gesamtzahl möglicher Modelle
Bei einem 3-faktoriellen Design sind eine Anzahl von Modellen möglich; für ein
solches Design hat man insgesamt die in Tabelle 8 angegebenen Kombinationen.
Es mag in speziellen Situationen sinnvoll sein, alle Modelle zu diskutieren, sehr
häufig wird man aber nur an einigen der überhaupt möglichen Modelle interessiert
sein. In Beispiel wird eine 3-dimensionale Tabelle diskutiert werden.
2.8
Interpretation der Parameter
Die Parameter eines loglinearen Modells werden über Odds-Ratios interpretiert.
2.8.1
Drei-Faktor-Interaktion
Um die Bedeutung der Drei-Faktor-Interaktion µABC zu finden, betrachtet man
das bedingte Kreuzproduktverhältnis:
Definition 2.4 Es bezeichnen i1 und i2 irgendwelche Stufen von A, und j1 , j2
mögen irgendzwei Stufen von B bezeichnen. Für die feste Stufe Ck von C heißt
Θi1 i2 ;j1 j2 |k =
p(Ai1 |Bj1 ∩ Ck )/p(Ai2 |Bj1 ∩ Ck )
ni j k ni j k
= 11 22
p(Ai1 |Bj2 ∩ Ck )/p(Ai2 |Bj2 ∩ Ck )
ni1 j2 k ni2 j1 k
das bedingte Kreuzproduktverhältnis, gegeben Ck .
26
(66)
Tabelle 8: Mögliche Modelle bei 3-dimensionalem Design
Modell
Bedeutung
A, B, C
AB, C
AC, B
BC, A
AB, AC
AB, BC
AC, BC
ABC
Vollst.
Assoz.
Assoz.
Assoz.
Assoz.
Assoz.
Assoz.
Assoz.
Unabhängigkeit
A × B unabh. v. C
A × C unabh. v. B
B × C unabh. v. A
A × B, A × C
A × B, B × C
A × C, B × C
A×B×C
Ist das bedingte Kreuzproduktverhältnis identisch für alle Ck , so hat C keinen
Einfluß auf die Beziehung zwischen (d.h. auf die Assoziation von) A und B, die
Verhängung der Todesstrafe wäre dann unabhängig von der speziellen Täter-OpferKombination. Ist das Verhältnis nicht unabhängig von C, so hängt das Urteil eben
von der Kombination ab.
Logarithmiert man Θi1 i2 ;j1 j2 |k und setzt man für log ni1 j1 k die entsprechenden
Ausdrücke des saturierten Modells ein, so ergibt sich (über eine längliche Rechnung)
log Θi1 i2 ;j1 j2 |k
=
ABC
ABC
ABC
(µABC
i1 j1 k1 − µi2 j1 k1 ) − (µi1 j2 k1 − µi2 j2 k1 )
−(µABC
i1 j2 k2
−
µABC
i2 j1 k2 )
−
(µABC
i1 j2 k2
−
(67)
µABC
i2 j2 k2 )
Θi1 i2 ;j1 j2 |k bildet die Wirkung von C auf den Zusammenhang zwischen A und
B ab, und (67) zeigt, dass diese Einwirkung auf die Drei-Faktor-Interaktionen
zurückzuführen ist. Für µABC = 0 ist Θi1 i2 ;j1 j2 |k = 1 für alle Ck .
2.8.2
Zwei-Faktor-Interaktionen
Für die Interpretation der Zwei-Faktor-Interaktionen betrachtet man die bedingten
Kreuzprodukte
ni j k ni j k
Θi1 i2 ;j1 j2 |k = 1 1 2 2
(68)
ni1 j2 k ni2 j1 k
und die Logarithmierung ergibt
log
Θi1 i2 ;j1 j2 |k1
Θi1 i2 ;j1 j2 |k2
=
AB
AB
AB
(µAB
i1 j1 − µi2 j1 ) − (µi1 j2 − µi2 j2 )
(69)
ABC
ABC
ABC
+µABC
i1 jj1 k + µi2 j2 k − µi1 j2 k − µi2 j1 k
Demnach wird der Zusammenhang zwischen A und B durch die Interaktion µAB
sowie durch die Drei-Faktoren-Interaktion µABC bestimmt. Für µAB = 0 ist der
Zusammenhang (die Interaktion) zwischen A und B nicht mehr von C abhängig
27
und Θi1 i2 ;j1 j2 |k = Θi1 i2 ;j1 j2 , d.h. das Kreuzproduktverhältnis ist identisch mit dem
entsprechenden Verhältnis der A × B-Tafel. Diese entsteht durch Aggregation (d.h.
durch Summation) über C.
2.8.3
Ein-Faktor-Effekte
Auch Haupteffekte können diskutiert werden. Dazu werden die bedingten Odds
(Wettchancen) 1. Ordnung betrachtet:
Θi1 i2 (Bj ∩ Ck ) =
p(Ai1 |Bj ∩ Ck )
p(Ai2 |Bj ∩ Ck )
(70)
und
log Θi1 i2 (Bj ∩ Ck ) =
A
AB
AB
µA
i1 − µi2 + µi1 j − µi2 j
+µAC
i1 k
−
µAC
i2 k
+
µABC
i1 jk
−
(71)
µABC
i2 jk
Hier wird die Wahrscheinlichkeit des Auftretens von Ai1 relativ zu der von Ai2
unter der Bedingung, dass die Kombination (Bj ∩ Ck ) vorliegt, betrachtet. Verschwinden alle Interaktionsterme µAB , µAC und µABC , so hängt dieses Verhältnis
A
nur von der Differenz µA
i1 − µi2 ab.
Beispiel 2.4 Zur Illustration werden die Daten der Tabelle 4 zur Verhängung der
Todesstrafe in den USA betrachtet; es handelt sich um eine 2 × 2 × 2-Tabelle. Es
kann angenommen werden, dass es sich um ein multinomiales Erhebungsschema
handelt. Die Parameter des Modells müssen dann der Bedingung
AC
BC
ABC
AB
B
C
(72)
n+++ = exp µ + µA
i + µj + µk + µij + µik + µjk + µijk
genügen. Dieses Modell ”erklärt” die Daten in jedem Fall; - es ist also ”trivial”. Die
Frage ist, ob nicht ein einfacheres Modell die Daten ebenfalls erklärt.
Die erste Frage ist, welche der möglichen Modelle inhaltlich interessant sind.
Die Verhängung der Todesstrafe kann als Variable, die von der Farbe des Opfers
einerseits und von der Farbe des Täters andererseits abhängt, aufgefaßt werden.
Es stehe A für die Todesstrafe, B für das Opfer und C für den Täter7 Die Modelle
werden der Reihe nach diskutiert:
1. Das Modell (A, B, C): Dies ist das ”Nullmodell”, d.h. es wird keinerlei Abhängigkeit zwischen den Faktoren Hautfarbe des Täters, Hautfarbe des Opfers
und Verhängung der Todesstrafe angenommen. Wie man der Tabelle 9 entnehmen kann, ist der G2 -Wert hochsignifikant, d.h. das Modell ist nicht mit
den Daten verträglich.
2. Das Modell (A, BC): Es wird angenommen, dass die Todesstrafe unabhängig
von der Hautfarbe weder des Täters noch des Opfers verhängt wird; die Abhängigkeiten in der Tabelle können, dieser Hypothese entsprechend, durch
Assoziationen zwischen Tätern und Opfern erklärt werden: Weiße töten überzufällig häufig Weiße, und/oder Schwarze überzufällig häufig Schwarze, und/oder
Schwarze überzufällig häufig Weiße und/oder umgekehrt. Gemäß Tabelle 9
weicht auch dieses Modell signifikant von den Daten ab (p = .043 < .05).
7 Oder die Täterin, auf die Männlich-weiblich-Unterscheidung wird im Folgenden der Einfachheit wegen verzichtet.
28
Tabelle 9: Modelle für Abhängigkeiten zwischen Strafe und Hautfarbe
Modell
G2
df
p
A, B, C
A, BC
AB, C
AC, B
AB, AC
AB, BC
AB, AC, BC
ABC
137.93
8.13
131.68
137.71
131.46
1.88
.701
.000
4
3
3
3
2
2
1
0
.000
.043
.000
.000
.000
.390
.403
1.000
A Bestrafung, B Opfer,C Täter
3. Das Modell (AB, C): Hier wird eine Beziehung zwischen der Farbe des Opfers
und der Art der Bestrafung angenommen, die unabhängig von der Farbe des
Täters ist. Der G2 -Wert is hochsignifikant, d.h. das Modell ist nicht mit den
Daten kompatibel.
4. Das Modell (AC, B): Hier wird eine Abhängigkeit zwischen der Hautfarbe
des Täters und der Verhängung der Todesstrafe angenommen; die Farbe des
Opfers spielt keine Rolle. Der G2 -Wert ist offenbar hochsignifikant, d.h. das
Modell ist nicht mit den Daten kompatibel.
5. Das Modell (AB, AC): Hier wird angenommen, dass es (i) eine Abhängigkeit
zwischen der Verhängung der Todesstrafe und Farbe des Täters einerseits
und (ii) zwischen Verhängung der Todesstrafe und Farbe des Opfers andererseits gibt. So kann die Tatsache, dass ein Täter schwarz ist, die Wahrscheinlichkeit des Todesurteils erhöhen, und unabhängig davon (d.h. unabhängig
davon davon, dass der Täter weiß oder schwarz ist) von der Farbe des Opfers;
die Richter können es als besonders verwerflich empfinden, dass ein Weißer
umgebracht wurde, einen Schwarzen zu töten kann als läßliche Sünde gelten.
Nach Tabelle 9 kann das Modell nicht akzeptiert werden.
6. Das Modell (AB, BC): Hier wird eine Abhängigkeit zwischen Verhängung
der Todesstrafe einerseits und der Farbe des Opfers (z.B. wird das Töten eines Weißen als besonders verwerflich betrachtet) andererseits postuliert, und
darüber hinaus wird angenommen, dass es noch eine Assoziation zwischen
Opfern und Tätern gibt. Nach Tabelle 9 ist dieses Modell mit den Daten
verträglich, - es ist aber die Frage, ob es auch das beste Modell ist.
7. Das Modell (AB, AC, BC): Hier werden paarweise Abhängigkeiten zwischen
der Verhängung der Todesstrafe und (i) der Farbe des Opfers, (ii) der Farbe des Täters und schließlich (iii) zwischen Opfer und Täter angenommen.
29
Dieses Modell ist sicher mit den Daten verträglich, aber wieder stellt sich
die Frage, ob es das beste Modell ist, - schhließlich werden mehr Parameter geschätzt als bei dem Modell (AB, BC),was automatisch eine bessere
Anpassung impliziert.
8. Das Modell (ABC): Hier wird postuliert, dass die jeweilige Kombination von
Opfer, Täter und Verhängung der Todesstrafe ganz spezifisch ist.
Betrachtet man alle Modelle, so kommt man zu dem Schluß, dass das Modell
(AB, BC) die beste Beschreibung der Daten liefert: es kommt mit einem Parameter weniger als das Modell (AB, AC, BC) aus und erzeugt einen G2 -Wert, dessen
Wahrscheinlichkeit unter der Nullhypothese nur unwesentlich von dem des komplexeren Modells abweicht. Die Bestrafung hängt also im wesentlichen (i) von der
Farbe des Opfers ab - es ist schlechter für den Täter, wenn er einen Weißen getötet
hat,unabhängig davon, ob er selbst weiß oder schwarz ist - und (ii) von einer Assoziation zwischen Täter und Opfer - Weiße töten eher Weiße, und Schwarze eher
Schwarze.
2.9
Aggregierbarkeit und das Simpsonsche Paradoxon
Vielfach hat man einfach erscheinende 2 × 2-Tabellen zu interpretieren, etwa bei
der Frage, ob Schwarze häufiger zum Tode verurteilt werden als Weiße, ob eine
Therapie A besser als eine Therapie B ist, ob Frauen weniger häufig zum Studium
zugelassen werden als Männer, etc. Die Entscheidung über die Fragen scheint sich
oft direkt an den Daten ablesen zu lassen, – aber die Entscheidung kann dennoch
nicht den Kern der Sache treffen. Wie bei Korrelationen zwischen zwei Variablen
können dritte, zunächst nicht berücksichtigte Variablen eine wichtige Rolle spielen, die zu falschen Schlüssen führen können. Gegeben sei also eine 2 × 2-Tabelle
der Form Man sei daran interessiert, zu erfahren, welche ”Behandlung” eher einen
Tabelle 10: Der allgemeine Fall, N = a + b + c + d
”Behandlung”
A
B
Σ
”Effekt”
+
a
b
c
d
a+c b+d
Σ
a+b
c+d
N
Effekt (+) hat und welche eher nicht (-). Man wird dann die bedingten Wahrscheinlichkeiten
P (+|A) =
P (+ ∩ A)
a
=
,
P (A)
a+b
P (+|B) =
P (+ ∩ B)
c
=
P (B)
c+d
(73)
miteinander vergleichen. Die Daten mögen nun P (+|B) > P (+|A) anzeigen, die
Behandlung B habe also die größere Erfolgswahrscheinlichkeit.
Simpsons Paradox Tatsächlich kann aber das Gegenteil der Fall sein: A kann
in Wirklichkeit den größeren Effekt erzielen. Denn die untersuchte Stichprobe aus
30
N Personen (”Fällen”) kann sich aus Mitgliedern zweier Teilpopulationen zusammensetzen, und für beide Teilpopulationen kann A die größere Effektivität haben.
Man hat also den ”paradoxen” Fall
P (+|A, I) >
P (+|A, II) >
P (+|A) <
P (+|B, I)
(74)
P (+|B, II),
P (+|B),
(75)
(76)
der als Simpsons Paradox bekannt ist, nach Simpson (1951), der dieses Phänomen
zuerst einer größeren statistischen Öffentlichkeit vorgestellt hat. Bekannt war es
aber schon länger: Karl Pearson (mit Koautoren) hat bereits 1899 darauf hingewiesen, und ebenso Yule (1903).
Die Tabelle 11 zeigt die beiden Teiltabellen, aus denen die Tabelle 10 durch
Aggregation hervorgegangen ist, d.h. also a = a1 + a2 , b = b1 + b2 , etc. Der Befund
P (+|B) > P (+|A) ist kein notwendiges, sondern nur ein mögliches Resultat dieser
Aggregation, das von den speziellen Werten von a1 , . . . , d2 abhängt. Um zu sehen,
Tabelle 11: Tabellen für die Teilstichproben, S1 = a1 + · · · + d1 , S2 = a2 + · · · + d2
A
B
Σ
Population I
+
Σ
a1
b1
a1 + b 1
c1
d1
c1 + d1
a1 + c1 b1 + d1
S1
A
B
Σ
Population II
+
Σ
a2
b2
a2 + b 2
c2
d2
c2 + d2
a2 + c2 b2 + d2
S2
wie das Paradox zustande kommen kann, muß man sich nur das Zustandekommen
der Ausdrücke für P (+|A) und P (+|B), wie man sie anhand der Daten aus der
Tabelle 10 berechnet, klarmachen.
Die hier relevanten Ausdrücke für bedingte Wahrscheinlichkeiten sind bereits
auf der Seite 9 für den allgemeinen Fall als Spezialfall des Satzes der Totalen
Wahrscheinlichkeit hergeleitet worden, sie seien hier der Einfachheit halber noch
einmal angegeben:
P (A|B)
P (A|¬B)
=
=
P (A|B ∩ C)P (C|B) + P (A|B ∩ ¬C)P (¬C|B)
P (A|¬B ∩ C)P (C|¬B) + P (A|¬B ∩ ¬C)P (¬C|¬B).
(77)
(78)
A steht hier für +, und B für die ”Behandlung”A, ¬B steht nun für die Behandlung
B. C steht für die Teilpopulation I, ¬C für die Teilpopulation II. Die Gleichungen
(77) und (78) werden hier also zu
P (+|A) =
P (+|B) =
P (+|A ∩ I)P (I|A) + P (+|A ∩ II)P (II|A)
P (+|B ∩ I)P (I|B) + P (+|B ∩ II)P (II|B)
(79)
(80)
Dass diese Ausdrücke gerade die Werte für P (+|A) und P (+|B) aus der Tabelle 10
angeben, sieht man, wenn man berücksichtigt, dass die Aggregation der Marginaltabellen gleichbedeutend mit a = a1 + a2 , b = b1 + b2 , c = c1 + c2 und d = d1 + d2
ist. Die Gleichung (79) liefert dann
a1
a1 + b 1
P (+|A) =
+
a1 + b 1
(a1 + b1 ) + (a2 + b2 )
31
a2
a2 + b 2
a2 + b 2
(a1 + b1 ) + (a2 + b2 )
a1 + a2
a
=
(a1 + b1 ) + (a2 + b2 )
a+b
+
=
(81)
in Übereinstimmung mit (73). Für den Ausdruck (80) verfährt man analog.
Die Aussagen (77) und (78) gelten allgemein, d.h. mit oder ohne Simpsons
Paradoxon. Die Frage ist, unter welchen Bedingungen kein Paradoxon vorliegt.
Man kann nun leicht die folgende Aussage beweisen:
Es gelte P (I|A) = P (I) und P (II|A) = P (II), d.h. I und II seien
unabhängig von A (dann sind auch A und B unabhängig von I und
II). Dann kann Simpsons Paradox nicht vorliegen.
Beweis: Es genügt die Annahme, dass I unabhängig von A ist; wegen II = ¬I
folgt dann auch die Unabhängigkeit von II von A, etc.
Sind also I und II unabhängig von A, so können die Gleichungen (79) und
(80) in der Form
P (+|A)
= P (+|A ∩ I)P (I) + P (+|A ∩ II)P (II)
(82)
P (+|B)
= P (+|B ∩ I)P (I) + P (+|B ∩ II)P (II)
(83)
(B = ¬A) geschrieben werden. Es werde nun angenomen, dass Simpsons Paradox
auftritt; dann gilt etwa P (+|A) < P (+|B), aber P (+|A, I) > P (+|B, I) und
P (+|A, II) > P (+|B, II). Nach Voraussetzung muß dann zunächst einmal
P (+|A, I)P (I) + P (+|A, II)P (II) < P (+|B, I)P (I) + P (+|B, II)P (II)
gelten. Bringt man die Terme auf der linken Seite auf die rechte Seite und fasst die
Terme mit der gleichen Wahrscheinlichkeit P (I) bzw. P (II) zusammen, so erhält
man
0 < (P (+|B, I) − P (+|A, I))P (I) + (P (+|B, II) − P (+|A, II))P (II).
(84)
Liegt, nach Voraussetzung, Simpsons Paradox vor, so muß P (+|B, I)−P (+|A, I) <
0 und P (+|B, II) − P (+|A, II) < 0 gelten. Aber das kann nicht sein, da dann die
Ungleichung (84) nicht erfüllt ist (in jedem Fall ist ja P (I) ≥ 0 und P (II) ≥ 0).
Die Annahme von Simpsons Paradox im Falle der Unabhängigkeit von A und I bz.
II führt also auf einen Widerspruch, mithin kann Simpsons Paradox nicht gelten.
Wegen der praktischen Bedeutung wird das Ergebnis in einem Satz zusammengefasst:
Satz 2.2 Gegeben sei eine 3-dimensionale 2 × 2×-Tabelle mit den Faktoren A, B
und C. Gilt Simpsons Paradox für die aggregierte 2 × 2-Tabelle (A × B), so sind
die Faktoren B und C stochastisch abhängig, so liegt Simpsons Paradox nicht vor
und es kann über den Faktor C aggregiert werden.
Anmerkung: Die genannte Unabhängigkeit ist eine hinreichende Bedingung, die
Notwendigkeit wurde nicht gezeigt. Diese würde darin bestehen, dass man vom
32
Nicht-Vorliegen des Simpson Paradoxes auf die Unabhängigkeit von B und C
schließen kann. Zwar kann man folgern: B und C sind unabhängig (p), also liegt
Simpsons Paradox nicht vor (q) (wenn p, dann q, d.h. p → q). Wenn dann Simpsons Paradox vorliegt, folgt, dass B und C nicht unabhängig voineinander sind
(p → q ⇒ ¬q → ¬p). Aber wenn Simpsons Paradox nicht vorliegt, so folgt daraus
noch nicht, dass B und C auch unabhängig sind. Denn p → q impliziert nicht
¬p → ¬q. Wenn Simpsons Paradox nicht vorliegt, so heißt das nur, dass eventuelle
Abhängigkeiten zwischen B und C nicht hinreichen, um das Paradox zu erzeugen.
Das Paradox wird an einer Reihe von Beispielen illustriert. Sie zeigen, dass die
Interpretation von 2 × 2-Tabellen völlig fehlgehen kann, wenn man den möglichen
Einfluß dritter Variablen vernachlässigt.
Beispiel 2.5 In Beispiel 2.3 wurden die Daten einer Tabelle (Tab. 6), die durch
Aggregation zweier Partialtabellen 5 erzeugt wurde, vorgestellt. Zur direkten Inspektion wird sie hier noch einmal wiedergegeben: Die Frage war, ob Schwarze
Tabelle 12: Verhängung der Todesstrafe in den USA
Angeklagte
weiß
schwarz
Σ
Todesstrafe
ja
nein
19
141
17
149
36
290
Σ
160
166
326
häufiger als Weiße zum Tode verurteilt wurden oder nicht. Das Assoziationsmaß
θ = 1.181 legt nahe, dass dies nicht der Fall ist. Insbesondere zeigen die Wahrscheinlichkeiten, zum Tode verurteilt zu werden unter Bedingung, schwarz oder
weiß zu sein
P̂ (T S|S) =
17
= .102,
166
P̂ (T S|W ) =
19
= .119
160
eher in die entgegengesetzte Richtung; die bedingte Wahrscheinlichkeit, zum Tode
verurteilt zu werden, wenn man schwarz ist, ist kleiner als die Wahrscheinlichkeit,
zum Tode verurteilt zu werden, wenn man weiß ist.
Bei der Tabelle 12 ist über den Faktor ”Opfer”aggregiert worden. Nun betrachte
man die beiden Partialabellen 13. Ow repräsentiere ein weißes, Os ein schwarzes
Opfer. Dann hat man die bedingten Wahrscheinlichkeiten
P̂ (T S|W, Ow ) =
19
= .144,
132
P̂ (T S|S, Ow ) =
11
= .175.
63
Wenn also das Opfer weiß ist, so ist die bedingte Wahrscheinlichkeit, als schwarzer
Täter zum Tode verurteilt zu werden, definitiv größer als wenn man ein weißer
Täter ist. Betrachtet man noch die bedingten Wahrscheinlichkeiten, zum Tode
verurteilt zu werden, wenn das Opfer schwarz ist, so erhält man
P̂ (T S|W, Os ) =
0
= .000,
9
P̂ (T S|S, Os ) =
33
6
= .058.
103
Tabelle 13: Partialtabellen
Ow : Opfer ist weiß
Todesstrafe
Täter +
Σ
weiß 19
132 151
schwarz 11
52
63
Σ 30
184 214
Os : Opfer ist schwarz
Todesstrafe
Täter +
Σ
weiß 0
9
9
schwarz 6
97 103
Σ 6
106 112
Offenbar hängt die Wahrscheinlichkeit eines Todesurteils nicht nur davon ab, welche Hautfarbe man als Täter hat, sondern auch, welche Hautfarbe das Opfer hatte.
Für einen weißen Täter ist die Wahrscheinlichkeit eines kapitalen Urteils vernachlässigbar gering, wenn sein Opfer schwarz war, der Schätzung nach ist sie gleich
Null. Die Wahrscheinlichkeit, als schwarzer Täter zum Tode verurteilt zu werden,
wenn das Opfer schwarz war, ist ebenfalls nahe Null (vermutlich ist der Unterwschied zwischen .00 und .058 nur zufällig). Dieser Befund gilt sicherlich nur für
diese Stichprobe und würde heute anders ausfallen, aber auf jeden Fall läßt sich
vermuten, dass diese bedingte Wahrscheinlichkeit der Todesstrafe bei schwarzem
Opfer relativ klein ist verglichen mit der bei weißem Opfer. Hat das Opfer eine
weiße Hautfarbe, so hat der weiße Täter durchaus eine Chance, zum Tode verurteilt zu werden, aber die des schwarzen Täters ist noch größer. Man soll nicht
töten, aber einen schwarzen Menschen zu töten, ist anscheinend weniger schlimm
als einen weißen Menschen zu töten.
Beispiel 2.6 Es werden zwei Therapien, A und B miteinander verglichen. 350
Patienten mit der Therapie A behandelt, weitere 350 mit der Therapie B, und
es wird ausgezählt, welche Therapie die größere Erfolgsrate hat, – in Tabelle 14
werden die Ergebnisse zusammengefaßt.
Tabelle 14: Zusammenfassende Darstellung der Ergebnisse, E Erfolg, ¬E kein Erfolg
Th. A
Th. B
Σ
E
273
289
562
¬E
77
61
138
Σ
350
350
700
Für Therapie A ist P (E|A) = 273/350 = .78, für Therapie B ist P (E|B) =
289/350 = .83, d.h. die Daten sprechen anscheinend für die Therapie B. Oder?
Werten man die Daten werden nach weiblichen und männlichen Patienten getrennt aus, so erhält man die Tabellen 15: Die Erfolgsquoten für die beiden Therapien sind
81
192
P (E|A, w) =
= .93, P (E|A, m) =
= .73,
87
263
und
234
55
P (E|B, w) =
= .87, P (E|B, m) =
= .69.
270
80
34
Tabelle 15: Ergebnisse, separiert nach weiblich und männlich, E Erfolg, ¬E kein
Erfolg
weiblich
E ¬E
Th. A
81
6
Th. B 234
36
Σ 315
42
männlich
E ¬E
Th. A 192
71
Th. B
55
25
Σ 247
96
Σ
87
270
357
Σ
263
80
343
In beiden Teilgruppen ist die Therapie A besser als die Therapie B! Nur wegen
der Aggregation über die Geschlechter erscheint die Therapie B besser.
Beispiel 2.7 Bei der Abstimmung über das Civil Rights Law (1964) (Abschaffung
der Rassensegregation in den USA) schienen mehr Republikaner als Demokraten
für das Gesetz gestimmt zu haben. Bei den Demokraten stimmte nur ein Anteil von
.598 für das Gesetz, während es bei den Republikanern 100 % waren. Tabelle 16
fasst die Daten zusammen. Bei dieser Tabelle wird implizit angenommen, dass DeTabelle 16: Demokraten und Republikaner bei der Abstimmung über Civil Rights
Dem
Rep
Σ
ja
152
138
290
nein
102
0
102
Σ
254
138
392
mokraten und Republikaner jeweils relativ homogene Blöcke ohne ausgesprochene
Subpopulationen sind. Andererseits können sich Nord- und Südstaatler hinsichtlich bestimmter politischer Grundeinstellungen durchaus unterscheiden. Betrachtet
man also Demokraten und Republikaner nach Staaten getrennt, so ergibt sich das
Bild der Tabelle 17.
Tabelle 17: Demokraten bei der Abstimmung über Civil Rights
Demokraten
ja nein
Nord 145
9
Süd
7
87
Σ 152
102
Republikaner
ja nein
Σ
Nord 138
24 162
Süd
0
10
10
Σ 138
34 172
Σ
154
94
248
Man findet
P (ja|N, Dem) =
145
= .94,
154
P (ja|S, Dem) =
P (ja|N, Rep) =
138
= .85,
162
P (ja|S, Rep) =
und
35
7
= .07
94
0
= .00.
10
In jedem Fall ist der Anteil der Demokraten, die für das Gesetz stimmten, höher
als der Anteil der Republikaner. Die unerlaubte Aggregation über die Nord- und
Südstaaten hat ein falsches Bild erzeugt.
Beispiel 2.8 Geschlechterbevorzugung 1973 wurden von der University of
California, Berkeley, die folgenden Daten über die Zulassung weiblicher und männlicher Studienbewerber veröffentlicht: Die Anteile männlicher und weiblicher ZuTabelle 18: Zulassungen weiblicher und männlicher Bewerber UCLA, Berkeley
m
w
Σ
Zulassung
+
3715 4727
1512 2809
5227 7536
Σ
8442
4321
12763
lassungen sind
P (+|m) =
3715
= .44,
8442
P (+|w) =
1512
= .35.
5227
Die Daten scheinen ein klares Bild zu liefern: die Wahrscheinlichkeit, als Frau zum
Tabelle 19: Zulassungen an den sechs am meisten nachgefragten Fächern, UCLA,
Berkeley 1973; S = Subject (Fach)
Fach
A
B
C
D
E
F
Σ
+
511
353
120
138
53
16
1191
männl. Bew.
Σ P (+|S)
314
825
.62
207
560
.63
105
325
.37
279
417
.33
138
191
.20
256
272
.06
1399 2590
Fach
A
B
C
D
E
F
Σ
+
89
17
202
131
94
24
557
weibl. Bew.
Σ P (+|S)
19
108
.82
8
25
.68
391
593
34
244
375
.35
299
393
.24
317
341
.07
1278 1835
Studium zugelassen zu werden,ist deutlich geringer als die Wahrscheinlichkeit, als
Mann zugelassen zu werden. Das Ergebnis sorgte für scharfe Debatten über die
Benachteiligung von Frauen, bis Bickel, Hammel & O’Connell (1975) die Daten reanalysierten. Bickel et al. führten aus, dass die Analyse auf Kontingenztabellen in
Bezug auf Geschlechtsunterschiede auf bestimmten Annahmen beruhen: (1) dass
Frauen und Männer sich nicht in ihren Fähigkeiten (Intelligenz und andere Qualifikationen) unterscheiden, (2) dass die Bewerbungen der Frauen und Männer an die
verschiedenen Departments nicht in Wechselwirkung mit den Zulassungsraten der
einzelnen Fächer stehen. Die Annahme (1) ist sinnvoll, die Annahme (2) erweist
sich als nicht sinnvoll. Die Tabelle 19 zeigt die Zulassungshäufigkeiten für die 6
am meisten nachgefragten Fächer, getrennt für weibliche und männliche Bewerber. Trägt man die Zulassungsraten P (+|S) für die Bewerberinnen gegen die der
36
Abbildung 1: Gender Bias: Zulassungsraten weiblich gegen männlich, UCLA Berkeley 1973
0,9
A
0,8
weibloiche Quote
0,7
B
0,6
0,5
0,4
0,3
D
E
C
0,2
F
0,1
0,0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
männliche Quote
männlichen Bewerber auf, so erhält man das Bild der Abbildung 1. Die angepasste
Gerade hat die Gleichung y = −.027 + .973x, d.h. die additive Konstante ist in
der Nachbarschaft von 0 und die Steigung ist in der Nachbarschaft von 1, – wie es
zu erwarten ist, wenn es keinen systematischen (Gender) Bias gibt. Man muß hier
noch berücksichtigen, dass nicht alle Fächer berücksichtigt wurden, sondern nur 6
meist nachgefragten, würden alle Fächer berücksichtigt, ist zu erwarten, dass die
additive Konstante noch näher bei Null und die Steigung noch näher bei 1 liegt.
Die Analyse von Bickel et al ergab, dass Frauen sich eher für Fächer bewerben,
bei denen ein höherer Andrang herrscht, der wiederum eine geringere Wahrscheinlichkeit impliziert , zugelassen zu werden (Literatur, soziale Fächer), während Männer sich oft für Fächer bewerben, bei denen der Andrang geringer ist (Mathematik,
Ingenieursfächer, Chemie, etc) und bei denen der Zugang deshalb leichter ist. Von
einer systematischen Benachteiligung der Frauen könne keine Rede sein, die unterschiedlichen Zugangsraten der Fächer selbst seien die moderierende Variable.
Zusammenfassung: Das Paradox wurde in den Gleichungen (74), (75) und (76)
zusammengefasst, die hier noch einmal wiedergegeben seien:
P (+|A, I) >
P (+|A, II) >
P (+|A) <
P (+|B, I)
P (+|B, II),
P (+|B),
Man hat also zwei Teilpulationen oder Bedingungen, I und II, unter denen jeweils
zwei ”Behandlungen” A und B miteinander verglichen werden, und in beiden Populationen I und II erscheint A als die bessere. Aggregiert man die beiden Datensätze
aber zu einem, so erscheint B als die bessere Methode.
Seit Simpsons (1951)-Artikel ist eine große Zahl von Arbeiten zu diesem Befund
erschienen, obwohl von rein statistischer bzw. wahrscheinlichkeitstheoretischer Seite aus das Paradox seit Blyth (1972) eine nüchterne Erklärung hat: es ist einfach
37
eine Konsequenz der Tatsache, dass sich der Befund P (+|A) < P (+|B) als,wie
Blyth es ausdrückte, ”gewogene Summe” der Befunde P (+|A, I) > P (+|B, I) und
P (+|A, II) > P (+|B, II) ergibt und nicht einfach als arithmetisches Mittel dieser
beiden Befunde (x̄ = (x1 + x2 )/2, d.h. d die Terme x1 und x2 werden jeweils mit
dem Faktor 1/2 addiert), wie es, so Blyth, die Intuition nahelege. Blyth bezieht
sich darauf, dass hier der auf Seite 8 zitierte Satz der Totalen Wahrscheinlichkeit
angwendet wird, vergl. die Gleichungen (77) und (78), wo die Gewichte durch die
bedingten Wahrscheinlichkeiten P (C|B), P (C|¬B) etc gegeben sind, die natürlich
von 1/2 abweichen können. Sobald aber P (C|B) = P (C|¬B) etc gilt, B und C
also unabhängig voneinander sind, gibt es auch kein Paradox mehr.
Aber auch wenn das Paradox eigentlich gar keines ist, so hat es doch eine beunruhigende Komponente. Denn die Ungleichungen, die das Paradox ausmachen,
können ja bestehen, ohne dass man es bemerkt, wenn nämlich gar keine Informationen über die Bedingungen oder Teilpopulationen vorliegen, über die man
gewissermaßen ahnungslos aggregiert hat. Man hat etwa in einer Stichprobe verschiedene Altersgruppen zusammengefasst, oder verschiedene Reaktionstypen, von
denen man nicht wußte, dass es sie überhaupt gibt etc, und interpretiert eine Tabelle in Bezug auf Wirkungen, die in den Teilgruppen gerade in entgegengesetzter
Weise existieren. Das Problem ist natürlich analog zu dem der Interpretation von
Korrelationen, die nur durch die Wirkung implizit gemessener, konfundierender
Variablen zustandekommen. Lindley & Novick (1981) haben die Situation auf einen
bemerkenswerten Punkt gebracht (vergl. Beispiel 2.6): angenommen, ein Arzt soll
eine Therapie verordnen. Weiß er, dass ein Patient aus einer (Teil-)Population I
oder II kommt, verordnet er die Therapie A. Weiß er es nicht, muß er die Therapie
B verordnen, – obwohl sie eigentlich die schlechtere Therapie ist. Natürlich wird
er, wenn er weiß, dass die Therapie sowohl in der Population I und II die bessere
Therapie ist, diese in jedem Fall verordnen. Andererseits liefert der Satz der Totalen Wahrscheinlichkeit eine optimale Empfehlung im Sinne der Bayesianischen
Statistik, dh im Falle der Unkenntnis über die Zugehörigkeit zu entweder I oder II
sollte man sich für die Therapie B entscheiden. Interessierten Lesern sei in diesem
Zusammenhang die Arbeit von Pearls (1999/2000) empfohlen.
Wissenschaftstheoretiker, also Philosophen (oder philosophisch motivierte Wissenschaftler), die sich mit dem Problem der Kausalität beschäftigen, sehen hier
ebenfalls ein Problem. Eine zusammenfassende Diskussion findet man bei Malinas
& Bigelow (2009). Pearl (1999) bzw (2000) diskutiert das Paradox ebenfalls in
Bezug auf die Frage der Kausalität.
2.10
Logistische Regression und log-lineare Modelle
In Tabelle 4 wurden Daten präsentiert, die Informationen über die Beziehungen
zwischen der Hautfarbe (i) des Opfers, (ii) des Täters und (iii) der Verhängung der
Todesstrafe enthalten. Die Daten können durch ein log-lineares Modell beschrieben werden. Andererseits kann die Variable ”Todesstrafe” mit den Werten ”ja”
(verhängt) oder ”nein” (nicht verhängt) als abhängige Variable, und die Farben
von Opfer und Täter als unabhängige Variablen betrachtet werden, so dass man
auch eine logistische Regression rechnen könnte. Es zeigt sich nun, dass eine Teilmenge der überhaupt möglichen log-linearen Modelle der logistischen Regression
äquivalent sind.
38
Die Farbe des Täters werde mit A bezeichnet; A = Aw , wenn der Täter weiß
ist, A = As , wenn er schwarz ist. B stehe für die Farbe des Opfers, B = Bw ,
wenn das Opfer weiß, und B = Bs , wenn das Opfer schwarz ist. C sei der Faktor
”Todesstrafe”: C = Cj , wenn sie verhängt wird, C = Cn , wenn sie nicht verhängt
wird. Es sei p die Wahrscheinlichkeit (relative Häufigkeit), dass die Todesstrafe
verhängt wird, und 1 − p dementsprechend die Wahrscheinlichkeit, dass sie nicht
verhängt wird. Gemäß dem Ansatz der kategorialen Regression wird
log
pij1
nij1
= log
= β0 + βiA + βjB
1 − pij1
nij2
(85)
betrachtet. Im log-linearen Ansatz kann das Modell (AB, AC, BC) diskutiert werden; hier treten also nicht nur die Beziehungen von A und B zu C auf, sondern es
kommt noch ein Interaktionsterm AB hinzu.
Es läßt sich nun zeigen, dass dieses Modell das Regressionsmodell (85) impliziert. Das log-lineare Modell lautet
log
nij1
nij2
=
log nij1 − log nij2
=
B
C
AB
AC
bc
(µ + µA
i + µj + µ1 + µij + µi1 + µj1 )
B
C
AB
AC
bc
−(µ + µA
i + µj + µ2 + µij + µi2 + µj2 )
C
AC
AC
BC
BC
(µC
1 − µ2 ) + (µi1 − µi2 ) + (µj1 − µj2 )
=
Nun muß die Bedingung, dass sich Effekte zu Null summieren, berücksichtigt werden; es gilt
X
X
X
µC
µAC
µBC
k =
ik =
jk = 0.
k
k
k
Daraus folgt
µC
1
µAC
j1
µBC
j1
Daraus ergibt sich
log
=
−µC
2
(86)
=
−µAC
i2
−µBC
j2 .
(87)
=
nij1
AC
BC
= 2µC
1 + 2µi1 + 2µj1
nij2
(88)
(89)
und diese Gleichung entspricht (85), denn 2µAC
i2 ist der i-te Effekt von A auf das
A
BC
Logit von C, d.h. µAC
=
β
,
und
2µ
ist
der
j-te Effekt von B auf das Logit
i1
i
j1
B
von C, d.h. 2µBC
=
β
.
Zum
Schluß
erhält
man
noch 2µC
1 = α.
j1
j
Die logistische oder kategoriale Regression (85) enthält keinen der Interaktionsterme µAB
ij , der im allgemeinen log-linearen Ansatz enthalten ist. Der Grund
dafür ist, dass sich diese Terme im Logit log nij1 /nij2 herauskürzen.
Es ist aber nicht so, dass sich grundsätzlich alle Interaktionsterme zwischen den
unabhängigen Variablen herauskürzen. Man kann z.B. eine 4-fach Klassifikation
vorliegen haben mit den Faktoren A, B, C und D, wobei D eine binärre abhängige
Variable ist. Betrachtet man nun das Logit
log
nijk1
= α + βkA + βiB + βjC
nijk2
39
(90)
und gleichzeitig die möglichen log-linearen Modelle, so findet man, dass das Modell
(ABC, AD, BD, CD)
diesem Ansatz entspricht; hier ist also die 3-fach Interaktion ABC enthalten. Man
AB
kann weiter den Regressionsansatz (90) um einen Term βki
erweitern, und dann
entspricht das log-lineare Modell (ABC, ABD, CD) diesem Regressionsansatz.
40
Literatur
[1] Agresti, A.: Categorical Data Analysis. Hoboken, New Jersey 2002
[2] Bickel, P.J., Hammel, E. A., O’Conell, J.W. (1975) Sex Bias in Graduate
Admissions: Data from Berkeley. Science 187, 398 – 404
[3] Bishop, Y.M.M., Fienberg, S.E., Holland, P.W.: Discrete Multivariate Analysis. Cambridge MA 1975
[4] Blyth, C.R. (1972) On Simpson’s paradox and the sure-thing principle. Statistics and Probability Letters , 2(1), 15–18
[5] Fahrmeir, L., Hamerle, A., Tutz, G. (Hrsg.) Multivariate statistische Verfahren. Berlin 1996
[6] Malinas, G. Bigelow, J. (2009) Simpson’s paradox. The Stanford Encyclopedia of Philosophy (Fall 2009 Edition), Edward N. Zalta (ed.), URL =
<http://plato.stanford.edu/archives/fall2009/entries/paradox-simpson/>.
[7] Pearl, J. (1999) Simpson’s Paradox: An Anatomy. Technical Report R-264,
April 1999
[8] Pearl, J. (2000) Pearl, Causality: Models, Reasoning, and Inference, New York,
Cambridge: Cambridge University Press.
[9] Pearson, K., Lee, A., Bramley-Moore, L. (1899) Genetic (reproductive) selection: Inheritance of fertility in man. Philosophical Transactions of the Royal
Society A , 73, 534 – 539
[10] Radelet, M.: Racial characteristics and imposition of the death penalty. Amer.
Sociol. Review 46, 918-927
[11] Simpson, E. H. (1951) The Interpretation of Interaction in Contingency Tables.Journal of the Royal Statistical Society, Ser. B., 13, 238–241.
[12] Yule, G. H. (1903) Notes on the theory of association of attributes in Statistics,Biometrika , 2, 121–134.
41
Herunterladen