Folie

Werbung
Assoziation zweier diskreter Merkmale
• Erhebung von zwei (oder mehr) Merkmalen: Frage
nach dem Zusammenhang beider Merkmale
• Sind beide Merkmale diskret mit endlich vielen
Ausprägungen (kategorial) sprechen wir von der
Assoziation
• Sind beide Merkmale stetig, sprechen wir von der
Korrelation
• Zunächst: X und Y werden als diskret
angenommen
• Statistik beantwortet nicht die Frage der Kausalität
1
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Beispiel: Körpertemperaturveränderung bei Ferkeln
Erhöhung 8
Stunden nach
Erstimpfung
Erhöhung 8 Stunden nach
Zweitimpfung
nein
ja
nein
21 (n11)
11 (n12)
32 (n1+)
3 (n21)
10 (n22)
13 (n2+)
24 (n+1)
21 (n+2)
45 (n)
ja
Summe
Summe
2
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Darstellung zweier diskreter Merkmale
• Die Darstellung der letzten Folie nennt man
Kontingenztafel
• Merkmal X: Temperaturerhöhung nach Erstimpfung
• Merkmal Y: Temperaturerhöhung nach Zweitimpfung
• Beide Merkmale sind binär und haben 2
Ausprägungen (nein/ja)
• Im Beispiel: 2x2-Tafel oder Vierfeldertafel
• Fragestellung: Sind X und Y abhängig
(assoziiert)?
3
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Definition: Unabhängigkeit
• Vorlesung vom 27.10.2005:
Zwei Ereignisse A und B heißen unabhängig, falls gilt:
P ( B | A)  P ( B )
P ( A | B )  P ( A)
P ( A  B )  P ( A)  P ( B )
4
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Unabhängigkeit zweier diskreter
Merkmale
• Jetzt: Zwei diskrete Merkmale X und Y sind
unabhängig, wenn
P( X  x, Y  y )  P( X  x) P(Y  y )
 Produkt der
Gemeinsame
Wahrscheinlichkeit
Randwahrscheinlichke iten
5
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Unabhängigkeit zweier diskreter
Merkmale II
•
•
•
•
•
Beispiel zweimaliger Münzwurf einer fairen Münze
X: Ergebnis des 1.Wurfs (K oder Z)
Y: Ergebnis des 2.Wurfs (K oder Z)
4 mögliche Kombinationen:
1. P(X=K; Y=K) = 0.25 = 0.5 · 0.5 = P(X=K) P(Y=K)
2. P(X=K; Y=Z) = 0.25 = 0.5 · 0.5 = P(X=K) P(Y=Z)
3. P(X=Z; Y=K) = 0.25 = 0.5 · 0.5 = P(X=Z) P(Y=K)
4. P(X=Z; Y=Z) = 0.25 = 0.5 · 0.5 = P(X=Z) P(Y=Z)
X und Y sind offensichtlich nach Definition unabhängig!
6
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Unabhängigkeit zweier diskreter Merkmale III
• Wahrscheinlichkeitstafel beim fairen, unabhängigen
Münzwurf:
1. Münzwurf 2. Münzwurf
Summe
K
Z
K
0.25
0.25
0.5
Z
0.25
0.25
0.5
Summe
0.5
0.5
1.0
7
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Kontingenztafel versus Wahrscheinlichkeitstafel
• Kontingenztafel: empirisch beobachtete Daten (Häufigkeiten)
• Wahrscheinlichkeitstafel: theoretische W. eines Experiments
• Münzwurfbeispiel: Fair hat nichts mit Unabhängigkeit zu tun. Unfaire
Münze (mit Wahrscheinlichkeit 0.7 kommt K):
1. Münzwurf
2. Münzwurf
K
Z
Summe
K
0.49
0.21
0.7
Summe
Z
0.21
0.09
0.3
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
0.7
0.3
1.0
8
Experiment: unfairer Münzwurf
• Das Experiment des (unabhängigen) unfairen
Münzwurfs wird 100 mal wiederholt. Wir erwarten (im
Sinne statistischer Erwartungswerte/Mittelwerte)
folgende Häufigkeiten:
1. Münzwurf
2. Münzwurf
Summe
K
Z
K
49
21
70
Z
21
9
30
Summe
70
30
100
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
9
Erwartete Häufigkeiten bei Unabhängigkeit
•
•
Die unter Unabhängigkeit von X und Y erwarteten gemeinsamen
Häufigkeiten sind das Produkt der Randhäufigkeiten geteilt durch den
Gesamtstichprobenumfang n:
(70·70 / 100) = 49 (70·30 / 100) = 21
(30·70 / 100) = 21 (30·30 / 100) = 9
Formal:
i  j
ij
e 
n n
i, j  1,2
n
eij : erwartete Häufigk.
10
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Übertragung auf das Eingangsbeispiel
Erhöhung 8
Stunden nach
Erstimpfung
Erhöhung 8 Stunden nach
Zweitimpfung
nein
21 (17.07) 11 (14.93) 32 (n1+)
ja
Summe
nein
3 (6.93)
24 (n+1)
Summe
ja
10 (6.07)
13 (n2+)
21 (n+2)
45 (n)
11
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Übertragung auf das Eingangsbeispiel II
• Berechnungsbeispiel: e_11 = (32·24) / 45 = 17.07
• Um die Assoziation von X und Y zu messen, berechnen wir den
Abstand der empirisch beobachteten Häufigkeiten von den unter
Unabhängigkeit zu erwartenden Häufigkeiten in statistisch
geeigneter Weise:
ni  n j

n 
2
2  ij
n

2
  
ni  n j
i 1 j 1
2


2
2 n  e 2
ij
ij
 

eij
i 1 j 1
n
12
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Übertragung auf das Eingangsbeispiel III

21  17.07 
 
2
2

11  14.93

2

17.07
14.93
2
2
3  6.93  10  6.07 
6.93
6.07
 6.71 (6.724 mit Computerprogramm)
13
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Pearsonscher Kontingenzkoeffizient C
C

2
 n
2
14
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Pearsonscher Kontingenzkoeffizient C (II)
• C ist ein normiertes Maß, d.h. es liegt im Intervall [0,1)
• Sind X und Y unabhängig, so gilt: C=0
• Je größer C, desto stärker die Assoziation bei gegebener
Dimension der Tafel (bis jetzt: 2x2)
• C gibt keine Richtung des Zusammenhangs an!
• C läßt sich auf IxJ-Tafeln analog erweitern (X: I Kategorien;
Y: J Kategorien)
• Im Beispiel:
6.724
C
 0.361
6.724  45
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
15
Odds Ratio
• Der Odds Ratio (das Kreuzproduktverhältnis) ist ein zu C
alternatives Zusammenhangsmaß für 2x2-Tafeln
• Der Odds Ratio gibt die Richtung des Zusammenhangs
an
• Der (empirische) Odds Ratio ist definiert als
n11n22
OR 
n12 n21
16
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Odds Ratio (II)
• Der Odds Ratio nimmt Werte im Intervall [0,∞) an
• Sind X und Y unabhängig, so ist OR=1
• Bemerkung: der OR ist nicht immer invariant gegen
Vertauschung von Zeilen oder Spalten der
Kontingenztafel
• OR>1: positive Abhängigkeit (siehe aber vorigen
Stichpunkt)
• OR<1: negative Abhängigkeit
• Im Beispiel: OR = (21·10)/(11·3) = 6.36
• Interpretation:
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
17
Interpretation des Odds Ratio (III)
nein
ja
Summe
nein
21
11
32
Ja
3
10
13
Bedingte Betrachtungen innerhalb der Zeilen:
1.Zeile (keine Temperaturerhöhung nach Erstimpfung):
Die sog. Chance (Odds), keine Temperaturerhöhung nach der
Zweitimpfung zu haben, ist
Ω1 = (21/32) / (11/32) = 21/11 = 1.91
2.Zeile (Temperaturerhöhung nach Erstimpfung):
Die sog. Chance (Odds), keine Temperaturerhöhung nach der
Zweitimpfung zu haben, ist
Ω2 = (3/13) / (10/13) = 3/10 = 0.3
18
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Interpretation des Odds Ratio (IV)
• Der Odds Ratio ist das Verhältnis der Chancen:
OR = Ω1/ Ω2 = 1.91/0.3 = 6.37
Die Chance, keine Temperaturerhöhung nach der Zweitimpfung
zu haben, ist 6.37 mal so groß für die Ferkel, die nach der
Erstimpfung keine Temperaturerhöhung hatten im Vergleich zu
den Ferkeln, die eine Temperaturerhöhung nach der
Erstimpfung hatten. Das heißt aber nicht, dass die
Wahrscheinlichkeit, keine Temperaturerhöhung nach
Zweitimpfung zu haben, für die Ferkel, die nach Erstimpfung
keine Temperaturerhöhung hatten, 6.36 mal so groß ist wie für
die Ferkel, die eine Temperaturerhöhung nach Erstimpfung
hatten, denn:
19
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Interpretation des Odds Ratio (V)
• (Bedingte) Wahrscheinlichkeit für Ferkel, die nach Erstimpfung
keine Temperaturerhöhung hatten, auch nach Zweitimpfung
keine TE zu haben, ist 21/32=0.66 und die Wahrscheinlichkeit
für die, die eine TE nach Erstimpfung hatten, ist 3/13= 0.23.
• Wichtig für Interpretation: Zeilen- und Spaltenlabels beachten.
Vertauschen wir zum Beispiel die 1. und 2. Zeile:
Ja
nein
nein
3
21
ja
10
11
Summe
13
32
OR = (3·11) / (10·21) = 0.157 = 1/6.37
Die inhaltliche Interpretation bleibt aber bei Beachtung der
Labels erhalten!
20
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Relatives Risiko
nein
ja
Summe
nein
21
11
32
Ja
3
10
13
Das (empirische) relative Risiko (RR), nach Zweitimpfung keine
TE zu haben, ist definiert als Verhältnis der bedingten relativen
Häufigkeiten (bedingt auf das Ergebnis der Erstimpfung):
n11 /( n11  n12 )
RR 
n21 /( n21  n22 )
21
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Relatives Risiko (II)
• Im Beispiel:
RR = (21/32) / (3/13) = 2.84 (≈0.66/0.23)
• Interpretation: keine Temperaturerhöhung nach
Erstimpfung „erhöht das Risiko“, auch nach
Zweitimpfung keine Temperaturerhöhung zu haben.
• RR=1 würde bedeuten: Risiko ist unabhängig vom
Ergebnis der Erstimpfung, d.h. die Merkmale TE
nach Erstimpfung und TE nach Zweitimpfung sind
unabhängig
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
22
Vor- und Nachteile des Odds Ratios
• Der Odds Ratio kann für alle gängigen
Studiendesigns berechnet werden und ist dabei
immer ein sinnvolles Zusammenhangsmaß
• Der Odds Ratio gibt die Richtung des
Zusammenhangs an (C dagegen nicht)
• Für größere als 2x2-Tafeln gibt es nicht nur einen
Odds Ratio, was die Interpretation schwierig macht.
Hier ist C ein einfacheres Assoziationsmaß
• RR ist bei manchen Studiendesigns nur in einer
bestimmten „Richtung“ anwendbar (z.B. case-control)
23
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Zusammenfassung I (was Sie wissen sollten)
• Für zwei diskrete Merkmale haben wir drei
Assoziationsmaße kennengelernt: C, Odds Ratio und
RR
• Insbesondere für 2x2-Tafeln ist der Odds Ratio ein
geeignetes Zusammenhangsmaß, da er auch eine
Richtung angibt
• Für allgemeine IxJ-Tafeln (I>2 und/oder J>2) bietet
sich C als (richtungsloses) Zusammenhangsmaß an
• Bei Verwendung des relativen Risikos RR ist auf das
Studiendesign zu achten, um keinen unsinnigen Wert
zu berechnen!
24
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Zusammenfassung II (was Sie können sollten)
• C berechnen
• Odds Ratio berechnen und interpretieren
• Relatives Risiko berechnen und interpretieren
25
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 8.12.2005
Herunterladen