Korrelation und Assoziation

Werbung
Schein- und NonsensKorrelation
Scheinkorrelation: zwei Merkmale hängen beide von einem weiteren
dritten ab
Korrelation
und
Assoziation
Nonsenskorrelation: zwei Merkmale haben eine hohe Korrelation, aber
keinen ursächlichen Zusammenhang
1
Korrelation und Assoziation
Stärke eines Zusammenhanges zwischen zwei Merkmalen:
Korrelation oder Assoziation
Form eines Zusammenhanges zwischen Merkmalen: Regression
• Wahl einer geeigneten Maßzahl hängt jeweils vorliegenden Skalenniveaus der beiden Merkmale X und Y ab
2
Korrelations- und
Assoziationsmaße
Korrelation:
beide Merkmale haben mindestens ordinales Skalenniveau
Assoziation:
mindestens ein Merkmal hat „nur“ nominales Skalenniveau
• Haben die beiden Variablen unterschiedliches Niveau, so kann ein
Koeffizient gewählt werden, der zu dem niedrigeren Niveau gehört.
• Alternativ muss man auf einen Koeffizienten ausweichen, der für
unterschiedliche Skalenniveaus entwickelt worden ist.
3
4
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
empirische Kovarianz sxy
empirische Korrelationskoeffizient rxy
s xy :=
1 n
∑ ( xi − x ) ⋅ ( yi − y )
n − 1 i =1
n
rxy :=
verallgemeinerte Varianz
s xx
1 n
1 n
2
2
=
∑ ( xi − x )( xi − x ) =
∑ ( xi − x ) = s x .
n − 1 i =1
n − 1 i =1
∑ ( xi − x ) ⋅ ( yi − y )
s xy
sx ⋅ s y
=
i =1
n
2  n
2
(
)
x
−
x
 ⋅  ∑ ( yi − y ) 
∑ i
  i =1

 i =1
.
− 1 ≤ rxy ≤ +1.
− ∞ ≤ s xy ≤ +∞.
5
Korrelationskoeffizient nach Bravais-Pearson
6
Korrelationskoeffizient nach Bravais-Pearson
(Beispiele nichtlinearer Zusammenhänge)
• ist nur geeignet den Grad der linearen Abhängigkeit zwischen
den beiden Variablen X und Y zu messen.
• Zusammenhänge anderer Form, z.B. quadratische Zusammenhänge,
werden nicht erkannt
• Die Interpretation des Korrelationskoeffizienten sollte daher immer im
Zusammenhang mit der grafischen Darstellung der Daten
(Scatterplot) erfolgen.
rXY = 0
7
8
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
(Beispiele nichtlinearer Zusammenhänge)
(Referenzdiagramme)
4
5
3
4
2
3
y
y
1
-0
2
1
-1
0
-2
rXY = -0.17
-3
rXY = 0.70
-1
-3
-2
-1
-0
1
2
3
-3
-2
-1
x
-0
x
1
2
3
rXY = 0
9
10
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
Alternative Berechnung der Kovarianz mit
(Referenzdiagramme)
s xy =
4
3
rXY = -1.00
3
2
s xy =
2
1
y
y
1
1 n
1 n
∑ ( xi − x ) ⋅ ( yi − y ) =
∑ ( xi ⋅ yi − xi ⋅ y − x ⋅ yi + x ⋅ y )
n − 1 i =1
n − 1 i =1
-0
-0
=
n
n
n
1 n

 ∑ xi ⋅ yi − y ∑ xi − x ∑ yi + ∑ x ⋅ y 
n − 1  i =1
i =1
i =1
i =1

=
1 n

 ∑ xi ⋅ yi − n ⋅ x ⋅ y − n ⋅ x ⋅ y + n ⋅ x ⋅ y 
n − 1  i =1

=
1 n

 ∑ xi ⋅ yi − n ⋅ x ⋅ y 
n − 1  i =1

-1
-1
rXY = 0.97
-2
-3
-3
1 n

 ∑ xi ⋅ yi − n ⋅ x ⋅ y 
n − 1  i =1

-2
-1
-0
x
1
2
3
-2
-3
-3
-2
-1
-0
1
2
3
x
11
.
12
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
(Beispiel)
Alternative Darstellung des Korrelationskoeffizienten
Für n = 11 Rehaeinrichtungen wurde die Anzahl von beschäftigten
Mitarbeiter(innen) sowie das ihnen zur Verfügung stehende jährliche
Budget (in Tausend Euro) erhoben.
n
xi: Anz. Mit. 10
∑ xi ⋅ yi − n ⋅ x ⋅ y
rxy =
yi: Budget
i =1
8
13
9
11
14
6
4
12
7
5
80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8
n
n 2
2 
2
2
 ∑ xi − n ⋅ x  ∑ yi − n ⋅ y 

 i =1
 i =1
110
100
Budget
90
80
70
60
50
40
4
5
6
7
8
9
10
11
12
13
14
Anzahl der Mitarbeiter(innen)
13
14
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
(Beispiel)
(Beispiel)
xi: Anz. Mit. 10
yi: Budget
8
n
1
1
⋅ ∑ yi = ⋅ 825 = 75
n i =1
11
11
14
6
4
12
7
5
s x2 =
1 n
⋅ ∑ ( xi − x )2
n − 1 i =1
(
1
⋅110 = 11
10
8
1
⋅ 4120.6 = 412.06
10
11
14
6
4
12
7
5
)
1
⋅ (1 ⋅ 5.4 + (−1) ⋅ (−5.5) + 4 ⋅ 0.8 + 0 ⋅13.1 + 2 ⋅ 8.3
10
+ 5 ⋅ 24.6 + ( −3) ⋅ (−2.6) + (−5) ⋅ (−32.4) + 3 ⋅ 33.3 + (−2) ⋅ (−26.8) + ( −4) ⋅ (−18.2) )
1
⋅ 549.80 = 54.98
10
rxy =
15
9
1 n
⋅ ∑ ( xi − x ) ⋅ ( yi − y )
n − 1 i =1
(
)
13
80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8
=
1
⋅ 5.4 2 + (−5.5) 2 + 0.82 + 13.12 + 8.32 + 24.6 2
10
+ (−2.6) 2 + (−32.4) 2 + 33.32 + (−26.8) 2 + (−18.2) 2
=
yi: Budget
=
1
= ⋅ 12 + ( −1) 2 + 4 2 + 0 2 + 2 2 + 52 + ( −3) 2 + (−5) 2 + 32 + (−2) 2 + (−4) 2
10
1 n
=
⋅ ∑ ( yi − y )2
n − 1 i =1
=
xi: Anz. Mit. 10
s xy =
=
s 2y
9
80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8
1 n
1
x = ⋅ ∑ xi = ⋅ 99 = 9
n i =1
11
y=
13
s xy
s x2 ⋅ s 2y
.
=
54.98
54.98
=
= 0.8166
67
.3250
11 ⋅ 412.06
16
Korrelationskoeffizient nach Bravais-Pearson
Korrelationskoeffizient nach Bravais-Pearson
(Sportfest)
(Sportfest)
Startnummer
1
2
3
4
5
6
7
8
100-m-Lauf(in
sec)
11.1 11.9 11.3 12.3 12.7 12.1 11.5 12.9
Weitsprung (in m)
5.0
6.2
5.1
5.8
6.1
5.2
5.6
6.5
9
10
11
12
13
14
15
16
7.0
100-m-Lauf(in
sec)
11.2 12.5 11.3 12.2 11.7 12.8 11.1 11.6
Weitsprung (in m)
6.3
5.3
6.0
5.1
6.8
6.7
5.4
6.4
Startnummer
17
18
19
20
21
22
23
24
100-m-Lauf(in
sec)
11.4 12.0 11.5 12.6 11.4 12.4 11.8 11.2
Weitsprung (in m)
5.7
5.9
5.2
5.3
5.5
5.0
6.9
6.5
Weitsprung
Startnummer
6.0
5.5
5.0
6.6
4.5
11.0
11.5
17
Korrelationskoeffizient nach Bravais-Pearson
12.0
12.5
13.0
100m - Lauf
18
Rangkorrelationskoeffizient nach Spearman
(Sportfest)
x=
y=
1 n
1
⋅ ∑ xi =
⋅ 284.5 = 11.8542
n i =1
24
1 n
1
⋅ ∑ yi =
⋅139.6 = 5.8167
n i =1
24
rxy =
s xy
sx ⋅ s y
=
0.0332
= 0.0925
0.5794 ⋅ 0.6194
xi ⋅ y i
Startxi
yi
xi2
y i2
nummer 100m- Weitspr
Lauf
ung
1
11.1
5.0
123.21 25.00 55.50
2
11.9
6.2
141.61 38.44 73.78
3
11.3
5.1
127.69 26.01 57.63
4
12.3
5.8
151.29 33.64 71.34
5
12.7
6.1
161.29 37.21 77.47
6
12.1
5.2
146.41 27.04 62.92
7
11.5
5.6
132.25 31.36 64.40
8
12.9
6.5
166.41 42.25 83.85
9
11.2
6.3
125.44 36.69 70.56
10
12.5
5.3
156.25 28.09 66.25
11
11.3
6.0
127.69 36.00 67.80
12
12.2
5.1
148.84 26.01 62.22
13
11.7
6.8
136.84 46.24 79.56
14
12.8
6.7
163.84 44.89 85.76
15
11.1
5.4
123.21 29.16 59.94
16
11.6
6.4
134.56 40.96 74.24
17
11.4
5.7
129.96 32.49 64.98
18
12.0
5.9
144.00 34.81 70.80
19
11.5
5.2
132.25 27.04 59.80
20
12.6
5.3
158.76 28.09 66.78
21
11.4
5.5
129.96 30.25 62.70
22
12.4
5.0
153.76 25.00 62.00
23
11.8
6.9
139.24 47.61 81.42
24
11.2
6.6
125.44 43.56 73.92
Summe 284.5 139.6 3380.25 820.84 1655.62
19
(Spearmans ρ bzw. rs)
Urliste x1,...,xn
Falls:
⇒
x(1) < x(2 ) < L < x(n )
Ordnungsstatistik x(1),...,x(n)
Rangzahl: R (x(i ) ):= i
für alle i = 1,L, n .
Bei Bindungen (engl. Ties):
identische Beobachtungswerte erhalten dieselbe (mittlere) Rangzahl
mittlere Rangzahl = arithmetisches Mittel der an dieselben
Beobachtungswerte zu vergebenden Rangzahlen:
20
Rangkorrelationskoeffizient nach Spearman
Rangkorrelationskoeffizient nach Spearman
Gegeben sei die folgende Urliste eines Merkmals X mit n = 7
beobachteten Werten:
Rangkorrelationskoeffizient nach Spearman:
Korrelationskoeffizient nach Bravais-Pearson für die Rangzahlen
x1 x2 x3 x4 x5 x6 x7
n
∑ (R( xi ) − R( x ))⋅ (R( yi ) − R( y ))
40 12 10 12 31 31 31
rs :=
x3=x(1) x2=x(2) x4=x(3) x5=x(4) x6=x(5) x7=x(6) x1=x(7)
10
12
12
31
31
31
i =1
n
2
R(x(1)) R(x(2)) R(x(3)) R(x(4)) R(x(5)) R(x(6)) R(x(7))
2.5
2.5
5
5
5
2
∑ (R( xi ) − R( x )) ⋅∑ (R( yi ) − R( y ))
40
i =1
1
n
7
mit
R( x ) = R( y ) =
i =1
n +1
2
Es gilt:
− 1 ≤ rs ≤ 1
21
22
Rangkorrelationskoeffizient nach Spearman
Rangkorrelationskoeffizient nach Spearman
(Beispiel mit Bindungen)
Liegen keine Bindungen vor, so lässt sich rs einfacher berechnen. Mit
di = R( xi ) − R( yi )
Schüler
Mathematik
Musik
R(Mathematik)
R(Musik)
gilt dann
n
6 ⋅ ∑ di2
rs = 1 −
Für n = 8 Schüler ergab eine Umfrage die folgenden Schulnoten in den
Fächern “Mathematik” und “Musik”.
i =1
3
A
3
2
5
3.5
B
4
4
7
7
C
1
5
1
8
D
5
3
8
5.5
E
3
1
5
1.5
F
2
1
2.5
1.5
G
2
2
2.5
3.5
H
3
3
5
5.5
Rangzahl 5 (Mathematik) für A, E und H ist Bindung
n −n
23
24
Rangkorrelationskoeffizient nach Spearman
Rangkorrelationskoeffizient nach Spearman
(Beispiel mit Bindungen)
(Beispiel mit Bindungen)
n
R( x ) = R( y ) =
∑ (R( xi ) − R( x ))⋅ (R( yi ) − R( y ))
n +1 8 +1
=
= 4.5 .
2
2
Für n = 8 Schüler ergab eine Umfrage die folgenden Schulnoten in den
Fächern “Mathematik” und “Musik”.
i =1
= 0.5 ⋅ (− 1) + 2.5 ⋅ 2.5 + (− 3.5) ⋅ 3.5 + 3.5 ⋅1
n
+ 0.5 ⋅ (− 3) + (− 2 ) ⋅ (− 3) + (− 2 ) ⋅ (− 1) + 0.5 ⋅1
2
∑ (R( xi ) − R( x ))
i =1
2
= 0.5 + 2.5
2
= −0.5 + 6.25 − 12.25 + 3.5 − 1.5 + 6 + 2 + 0.5 = 4
+ (− 3.5)2 + 3.52 + 0.52 + (− 2 )2 + (− 2 )2 + 0.52
= 0.25 + 6.25 + 12.25 + 12.25 + 0.25 + 4 + 4 + 0.25 = 39.5
n
2
∑ (R( yi ) − R( y ))
i =1
= (− 1)2 + 2.52 + 3.52 + 12 + (− 3)2 + (− 3)2 + (− 1)2 + 12
Schüler
Mathematik
Musik
R(Mathematik)
R(Musik)
= 1 + 6.25 + 12.25 + 1 + 9 + 9 + 1 + 1 = 40.5 .
rs =
A
3
2
5
3.5
rs =
B
4
4
7
7
C
1
5
1
8
D
5
3
8
5.5
E
3
1
5
1.5
F
2
1
2.5
1.5
G
2
2
2.5
3.5
H
3
3
5
5.5
4
= 0.10.
39.5 ⋅ 40.5
Es liegt also nur eine sehr geringe Rangkorrelation zwischen den
beiden Schulfächern vor. Aus der Mathematiknote lässt sich nicht
auf die Musiknote schließen und umgekehrt.
4
= 0.10.
39.5 ⋅ 40.5
25
26
Rangkorrelationskoeffizient nach Spearman
Rangkorrelationskoeffizient nach Spearman
(Beispiel ohne Bindungen)
(Beispiel ohne Bindungen)
Bei einer Besetzung für eine freie Mitarbeiterstelle wurden n=6
Kandidaten sowohl einem Wissenstest als auch einem psychologischen
Test unterzogen. Es sollte untersucht werden, ob die Ergebnisse der
beiden Testreihen miteinander korrelieren. Ermittelt wurden dazu die
Rangreihenfolgen der sechs Kandidaten bei den beiden Tests. Eine
Berechnung der Rangzahlen ist damit nicht mehr nötig. Es ergab sich:
Bewerber
Wissenstest
Psychologischer Test
Bewerber
A
di = R(xi) - R(yi) 1
A
6
5
B
1
3
C D
5 2
4 2
E F
3 4
1 6
B C D E F
-2 1 0 2 -2
6
Bewerber
Wissenstest
Psychologischer Test
A
6
5
B C D
1 5 2
3 4 2
∑ di2 = 12 + (− 2)2 + 12 + 02 + 22 + (− 2)2 = 14.
E F
3 4
1 6
i =1
6 ⋅14
14
2 3
rs = 1 − 3
= 1 − = 1 − = = 0.6.
5 5
35
6 −6
27
28
Rangkorrelationskoeffizient nach Spearman
Kontingenzkoeffizient nach Pearson
(Beispiel ohne Bindungen)
Bewerber
Wissenstest
Psychologischer Test
A
6
5
B C D
1 5 2
3 4 2
E F
3 4
1 6
Assoziationsmaß für zwei nominale Merkmale
6 ⋅14
14
2 3
rs = 1 − 3
= 1 − = 1 − = = 0.6.
5 5
35
6 −6
o jl
1 2 3 4 5 6
B D E F C A
E D B C A F
(
29
(o jl − e jl )2
j =1l =1
e jl
(
)
( o jl = H a j , bl )
e jl erwartete Häufigkeiten, die sich bei Unabhängigkeit von X und Y
ergeben
e jl :=
n j . ⋅ n.l
n
„o” = observed und „e” = expected
0≤C <
30
min (k , m ) − 1
min (k , m )
k und m sind die Anzahl der Spalten bzw. der Zeilen
der Häufigkeitstabelle
Kontingenzkoeffizienten C:
C :=
)
von
Es gilt für den Kontingenzkoeffizienten:
k m
∑∑
Kombination
Kontingenzkoeffizient nach Pearson
Konstruktion einer Hilfsgröße: χ 2
χ :=
der
Spaltensumme mal Zeilensumme durch Gesamtsumme
Kontingenzkoeffizient nach Pearson
2
Häufigkeiten
Merkmalsausprägungen a j , bl , j = 1, L , k , l = 1, L , m,
Es besteht also ein Zusammenhang zwischen dem Ergebnis der
beiden Tests. Wer im Wissenstest gut war, schneidet auch beim
psychologischen Test gut ab. Wer schlecht beim Wissenstest ist,
gehört auch beim psychologischen Test zu den schlechten
Kandidaten.
Rang
Wissenstest
Psych. Test
beobachteten
χ2
korrigierter Kontingenzkoeffizient C:
2
χ +n
Ccorr =
31
min (k , m )
⋅C
min (k , m ) − 1
32
Kontingenzkoeffizient nach Pearson
Kontingenzkoeffizient nach Pearson
Es gilt für den korrigierten Kontingenzkoeffizienten:
Wichtiger Hinweis:
Die oben genannte Hilfsgröße heißt χ 2 , da sie gut durch eine statistische
0 ≤ Ccorr ≤ 1
Verteilung, nämlich eine χ 2 -Verteilung beschrieben werden kann.
Die χ 2 -Verteilung ist eine stetige (theoretische) Verteilung; hier liegt jedoch
Ccorr = 1 ⇒ strikte Abhängigkeit
nur diskretes Datenmaterial vor.
Damit eine Approximation an eine χ 2 -Verteilung gut ist, sollten nach
Bei Unabhängigkeit gilt: Ccorr = 0
Cochran (1954) mindestens 80% aller erwarteten Häufigkeiten ejl einer
Mehrfeldertafel die folgende Faustformel erfüllen:
e jl ≥ 5
33
34
Kontingenzkoeffizient nach Pearson
Faustformel:
Beispiel
(Joe Cocker/Prince)
e jl ≥ 5
Achtung: Die bei Unabhängigkeit zu erwartenen Häufigkeiten
sollen die Faustformel erfüllen, nicht die beobachteten!
Ist dies nicht der Fall, so müssen benachbarte Zeilen oder Spalten nach
sachlogischen Gesichtspunkten so lange zusammengefasst werden, bis
obige Faustformel erfüllt ist.
Die oben erwähnte Korrektur des Kontingenzkoeffizienten ist aber nur
dann inhaltlich gerechtfertigt, wenn dadurch keine Verfälschung von
Populationsverhältnissen auftritt
35
Rauchverhalten
Sänger
R
N
Prince
5
6
11
Joe Cocker
8
6
14
13
12
25
Für die erwarteten Häufigkeiten ejl ergibt sich:
Sänger
Prince
Joe Cocker
Rauchverhalten
R
N
5.72
5.28
7.28
6.72
13
12
11
14
25
36
Beispiel
(Joe Cocker/Prince)
Rauchverhalten
Sänger
R
N
Prince
5
6
Joe Cocker
8
6
14
13
12
25
χ2 =
=
Rauchverhalten
R
N
5.72
5.28
7.28
6.72
13
12
Sänger
Prince
Joe Cocker
11
Beispiel
(Nationen im Pflegeheim)
In einem Pflegeheim der Stadt Astadt wurden auf den insgesamt zwei Stationen
Patient(inn)en aus drei Nationen gepflegt. Als Zusammenhangsmaß von Stationen und
Nationalität der Patient(inn)en ergab sich ein Kontingenzkoeffizient C von 0.68. In der
Gemeinde Bstadt wurden in einem Heim auf vier Stationen ebenfalls Patient(inn)en aus
drei Nationen gepflegt. Hier ergab sich ein Wert von C = 0.7. Um die beiden Heime
miteinander vergleichen zu können, wurde jeweils der korrigierte Kontingenzkoeffizient
ermittelt. Dabei ergibt sich:
11
14
25
(5 − 5.72)2 + (6 − 5.28)2 + (8 − 7.28)2 + (6 − 6.72)2
5.72
7.28
5.28
(− 0.72)2 + 0.722 + 0.722 + (− 0.72)2
5.72
C=
Ccorr =
5.28
7.28
6.72
6.72
= 0.3215
0.3215
= 0.1127
0.3215 + 25
min (2,2 )
⋅ C = 2 ⋅ 0.1127 = 0.1594
min (2,2 ) − 1
Somit gewinnt man den Eindruck, dass kein Zusammenhang zwischen
37
Rauchverhalten und Musikgeschmack vorliegt
Ccorr ( Astadt ) =
2
⋅ 0.68 = 0.96
2 −1
Ccorr (Bstadt ) =
3
⋅ 0.70 = 0.85
3 −1
Im Heim der Gemeinde Astadt ist also ein höherer Zusammenhang zwischen den
Merkmalen Station und Nationalität der Patienten festzustellen als in dem Heim der
38
Gemeinde Bstadt.
Assoziationskoeffizient nach Yule
Assoziationskoeffizient nach Yule
M erkm al
alternative Maßzahl für zwei nominalskalierte Merkmale X und Y, die
jeweils nur über zwei mögliche Ausprägungen (dichotome Merkmale)
Sum m e
X
b1
bm
a1
H (a 1 ,b 1 )
H ( a 1 ,b 2 )
n 1.
a2
H (a 2 ,b 1 )
H ( a 2 ,b 2 )
n 2.
Sum m e
n .1
n .2
n
Alternative zum Kontingenzkoeffizienten nach Pearson
Vorteil: Berechnung sehr viel einfacher und direkter
Y
Seien a1, a2 die Ausprägungen des Merkmals X und b1, b2 die
Ausprägungen des Merkmals Y. Dann ist
Q :=
39
H (a1, b1 ) ⋅ H (a2 , b2 ) − H (a1, b2 ) ⋅ H (a2 , b1 )
H (a1, b1 ) ⋅ H (a2 , b2 ) + H (a1, b2 ) ⋅ H (a2 , b1 )
o ⋅o − o ⋅o
Q := 11 22 12 21
o11 ⋅ o22 + o12 ⋅ o21
40
Assoziationskoeffizient nach Yule
Assoziationskoeffizient nach Yule
Vertauschen der Zeilen oder Spalten ⇒ Wechsel des Vorzeichens
Für den Koeffizienten gilt:
− 1 ≤ Q ≤ 1.
für nominale Merkmale gibt es keine natürliche Ordnung der
Ausprägungen
Für Q = 0 liegt Unabhängigkeit vor,
für |Q| = 1starke Abhängigkeit.
Nur für Kontingenztafeln bei denen für beide Merkmale eine Ordnung
der Ausprägungen gegeben ist – etwa gruppierte metrische Merkmale –
wird das Vorzeichen in die Interpretation einbezogen.
Bei der Interpretation des Assoziationskoeffizienten wird i.allg. nur der
absolute Wert des Koeffizienten berücksichtigt, nicht aber das
Vorzeichen.
41
Assoziationskoeffizient nach Yule
Sänger
P r in c e
Joe C ocker
R a u c h v e r h a lte n
R
N
5
6
8
6
13
12
Assoziationskoeffizient nach Yule
Q kann nur dann den Wert Eins annehmen kann, wenn mindestens ein
Wert auf der Nebendiagonale den Wert Null annimmt.
11
14
25
X
Y
a1
a2
b1 100 0
b2
0 100
Tafel A (Q = 1)
5 ⋅ 6 − 6 ⋅ 8 − 18
Q=
=
= −0.2308 .
5 ⋅ 6 + 6 ⋅ 8 78
Sänger
Joe C ocker
P r in c e
Q=
R a u c h v e r h a lte n
R
N
8
6
5
6
13
12
42
Y
a1
a2
b1 100 0
b2 50 100
Tafel B (Q = 1)
Während bei Tafel A eine wirklich strikte Assoziation zwischen den
Merkmalen X und Y vorliegt (zu je einer Ausprägung von X gehört
genau eine Ausprägung von Y, ist dies bei Tafel B nicht gegeben. Dort
ist nur bei je einer Ausprägung von X bzw. Y eine genaue Vorhersage
von Y bzw. X möglich.
14
11
25
8 ⋅ 6 − 5 ⋅ 6 18
=
= 0.2308 .
8 ⋅ 6 + 5 ⋅ 6 78
X
43
44
Der Eta-Koeffizient
Der Eta-Koeffizient
• Berechne von der gesamten Stichprobe das arithmetische Mittel und
die empirische Varianz des metrischen Merkmals Y.
Beispiel einer Maßzahl für zwei unterschiedlich skalierte Merkmale X
und Y.
• Sei nj der Umfang der j-ten Teilpopulation, die durch das nominale
Merkmal X gebildet wird (k Teilstichproben).
Sei X ein nominales Merkmal mit k Ausprägungen.
• Berechne dann zu jeder Teilpopulation das arithmetische Mittel y j
• Berechne dann das Quadrat des Eta-Koeffizienten mit:
Y sei metrisch skaliert.
1 k
⋅ ∑nj ⋅ y j − y 2
n − 1 i =1
(
Der Eta-Koeffizient soll messen, inwieweit die Information der
nominalen Variablen zur Erklärung der Variabilität der metrischen
Variablen herangezogen werden kann.
η2 =
)
s 2y
45
46
Der Eta-Koeffizient
Der Eta-Koeffizient
Geschlecht X
CD-Anzahl Y
• Berechne dann den Eta-Koeffizienten mit:
m
144
w
78
m
52
m
348
w
52
w
10
m
0
m
48
w
25
y = 79.6 und s y2 = 10502.267
η = η2
Wieviel Prozent der Gesamtvariabilität lässt sich durch das Geschlecht
erklären?
Der Eta-Koeffizient soll messen, inwieweit die Information der
nominalen Variablen zur Erklärung der Variabilität der metrischen
Variablen herangezogen werden kann.
Es gilt:
m
39
yw =
78 + 52 + 10 + 25
39 + L + 48
= 41.25
ym =
= 105.17
4
6
1
⋅ 4 ⋅ (41.25 − 79.6 )2 + 6 ⋅ (105.17 − 79.6 )2
2 9
η =
= 0.104
10502.267
(
)
η = η 2 = 0.104 = 0.323
−1 ≤ η ≤ 1
47
Knapp ein Drittel der Gesamtvariabilität kann durch das Geschlecht
erklärt werden.
48
Korrelations-/Assoziationsmaße
Skalenniveau
metrisch
ordinal
nominal
metrisch
rxy
rs
C/Ccorr/η
ordinal
rs
rs
C/Ccorr
nominal
C/Ccorr/η
C/Ccorr
C/Ccorr
Bei Vorliegen zweier dichotomer Merkmale ist immer auch Q als sinnvolle alternative
Maßzahl möglich.
49
Herunterladen