4.4 Abhängigkeitsmaße bei nichtmetrischen Daten

Werbung
4.4 Abhängigkeitsmaße bei nichtmetrischen Daten
1. Fall: Eine der beiden Variablen ist bestenfalls ordinal.
Definition:
Seien 𝑅(π‘₯𝑖 ) und 𝑅(𝑦𝑖 ) die Ränge der π‘₯𝑖 und 𝑦𝑖 . Der
gewöhnliche Korrelationskoeffizient π‘Ÿπ‘‹π‘Œ 𝑅 der 𝑅(π‘₯𝑖 ) und 𝑅(𝑦𝑖 )
heißt auch Spearman Rangkorrelationskoeffizient (nach
Charles Spearman 1863 – 1945).
Aufgabe:
Betrachten Sie einen bivariaten Datensatz (π‘₯𝑖 , 𝑦𝑖 )
mit π‘₯𝑖 > 0 und 𝑦𝑖 = π‘₯𝑖 2 .
(a) Berechnen sie den Wert von Spearmans rho.
(b) Wie ändert sich dieser Wert für 𝑦𝑖 = π‘₯𝑖 1/2 ?
Beispiel (Körpergröße und Gewicht aus 4.2):
𝑋 = Größe
𝑅 π‘₯𝑖
π‘Œ = Gewicht
𝑅 𝑦𝑖
170
1
60
1
172
2
76
8
175
3
60*
2
176
4
75*
6
177
5
66
4
Es gilt:
180
6
65
3
180∗
7
78
9
π‘Ÿπ‘‹π‘Œ = 0,76
183
8
75
7
185
9
87
11
187
10
72
5
188
11
90
12
190
12
82
10
194
13
92
13
* Bindung ist ein Artefakt der Rundung
π‘Ÿπ‘‹π‘Œ 𝑅 = 0,75
Zusammenhang zwischen „normalen“ und Rangkorrelationskoeffizienten
π‘Ÿπ‘‹π‘Œ = 1 = π‘Ÿπ‘‹π‘Œ 𝑅
π‘Ÿπ‘‹π‘Œ = 0.98 < 1 = π‘Ÿπ‘‹π‘Œ 𝑅
π‘Ÿπ‘‹π‘Œ = 0.96 < 1 = π‘Ÿπ‘‹π‘Œ 𝑅
Denkspiel für Tüftler (gibt einen Bonuspunkt für die
Übungen):
Konstruieren Sie ein Datensatz mit
π‘Ÿπ‘‹π‘Œ > 0.9 und π‘Ÿπ‘‹π‘Œ 𝑅 < − 0.9
So was gibt es tatsächlich. Ist aber leicht pervers. Man
kann sogar Datensätze konstruieren mit π‘Ÿπ‘‹π‘Œ beliebig
nahe an +1 und π‘Ÿπ‘‹π‘Œ 𝑅 beliebig nahe an -1.
𝑅
Satz 4.3 (Alternative Darstellung von π‘Ÿπ‘‹π‘Œ
):
Sind alle π‘₯𝑖 und alle 𝑦𝑖 verschieden (keine „Bindungen“),
so gilt
𝒓𝑹
𝑿𝒀 = 𝟏 −
πŸ”
𝒏
π’Š=𝟏
𝑹 π’™π’Š − 𝑹(π’šπ’Š )
𝒏(π’πŸ − 𝟏)
𝟐
Beweis: Ausnutzen, dass die 𝑅(π‘₯𝑖 ) und 𝑅(𝑦𝑖 ) gerade die
Menge der natürlichen Zahlen 𝑖 = 1,2, … , 𝑛 ausschöpfen
und die folgenden altbekannten Summenformeln
verwenden:
𝑛
𝑖=1 𝑖
=
𝑛(𝑛+1)
2
und
𝑛
2
𝑖
𝑖=1
=
𝑛(𝑛+1)(2𝑛+1)
6
Alternative Herangehensweise (M. Kendall, 1907 – 1983):
Betrachte alle Paare π‘₯𝑖 , 𝑦𝑖 und (π‘₯𝑗 , 𝑦𝑗 ):
Das Paar (von Paaren) heißt
konkordant
⇔
π‘₯𝑖 > π‘₯𝑗 und 𝑦𝑖 > 𝑦𝑗
oder
π‘₯𝑖 < π‘₯𝑗 und 𝑦𝑖 < 𝑦𝑗
Das Paar heißt diskordant
⇔
π‘₯𝑖 > π‘₯𝑗 und 𝑦𝑖 < 𝑦𝑗
oder
π‘₯𝑖 < π‘₯𝑗 und 𝑦𝑖 > 𝑦𝑗
y
.
.
(x2,y2)
(x1,y1)
konkordant
x
y
.
(x2,y2)
diskordant
.
x
(x1,y1)
𝐢 ≔ Anzahl konkordanter Paare
𝐷 ≔ Anzahl diskordanter Paare
𝑇𝑋 ≔ Anzahl Bindungen in 𝑋
π‘‡π‘Œ ≔ Anzahl Bindungen in π‘Œ
𝒏(𝒏−𝟏)
Bei einem bivariaten Datensatz vom Umfang n gibt es
Paare
𝟐
insgesamt (wenn wir ein Paar nur durch die Partner definieren, d.h.
Reihenfolge egal).
Zunächst zur Vereinfachung: keine Bindungen.
Definition:
𝑺 = π‘ͺ − 𝑫 heißt Kendallscher S-Koeffizient
Trivial: −
𝒏−𝟏
𝟐
≤𝑺≤
𝒏(𝒏−𝟏)
𝟐
Definition:
𝒓𝑿𝒀 𝑻 =
π‘ͺ−𝑫
𝒏(𝒏 − 𝟏)/𝟐
heißt Kendall‘scher tau-Koeffizient.
Trivial: −𝟏 ≤ 𝒓𝑿𝒀 𝑻 ≤ 𝟏
Im Ausgangsbeispiel: 𝑛 = 13, 𝐢 = 62, 𝐷 = 16,
d.h. π‘Ÿπ‘‹π‘Œ 𝑇 =
46
78
𝑛(𝑛−1)
2
= 13 βˆ™ 6 = 78,
= 0.59
Vorteil: Man muss noch nicht einmal die Ränge kennen!
Weiterer großer Vorteile gegenüber Spearmans rho (wie auch
gegenüber dem Bravais-Pearson-Korrelationskoeffizienten):
Kendalls tau hat eine schöne inhaltliche Interpretation:
𝒓𝑿𝒀 𝑻 = Anteil konkordanter Paare - Anteil diskordanter Paare
Zusammenhang von Kendalls tau und Spearmans rho:
Satz 4.4:
Bei Abwesenheit von Bindungen gilt immer
−𝟏 ≤ πŸ‘π’“π‘Ώπ’€ 𝑻 − πŸπ’“π‘Ώπ’€ 𝑹 ≤ 𝟏
Beweis: Siegel, S., and Castellan, N.J. (1988).
Nonparametric statistics for the behavioral sciences
(2nd Ed.). New York, NY.
Im Ausgangsbeispiel: 3π‘Ÿπ‘‹π‘Œ 𝑇 = 1.693
2π‘Ÿπ‘‹π‘Œ 𝑅 = 1.506
Graphische Darstellung von Kendalls tau:
Nr.
Rang(X)
Rang(Y)
1
1
2
2
2
1
3
3
4
4
4
3
𝑛 = 4,
𝑛(𝑛−1)
2
1
= 6, 𝐢 = 4, 𝐷 = 2, d.h. π‘Ÿπ‘‹π‘Œ 𝑇 = 3
Dabei entspricht D der Anzahl der Überschneidungen in folgendem
Diagramm („Rangdiagramm“):
Rang(y)
Rang (x)
Etwas komplizierter: Es existieren Bindungen!
Definition:
Im Fall von Bindungen ist der Kendallsche tau-Koeffizient
gegeben durch
𝒓𝑻𝑿𝒀
=
π‘ͺ−𝑫
π‘ͺ + 𝑫 + 𝑻𝒙 π‘ͺ + 𝑫 + π‘»π’š
𝑛(𝑛−1)
Für 𝑇𝑋 = π‘‡π‘Œ = 0 ist der Nenner =
, d.h. die beiden
2
Formeln liefern identische Ergebnisse.
Herunterladen