4.4 Abhängigkeitsmaße bei nichtmetrischen Daten 1. Fall: Eine der beiden Variablen ist bestenfalls ordinal. Definition: Seien π (π₯π ) und π (π¦π ) die Ränge der π₯π und π¦π . Der gewöhnliche Korrelationskoeffizient πππ π der π (π₯π ) und π (π¦π ) heißt auch Spearman Rangkorrelationskoeffizient (nach Charles Spearman 1863 – 1945). Aufgabe: Betrachten Sie einen bivariaten Datensatz (π₯π , π¦π ) mit π₯π > 0 und π¦π = π₯π 2 . (a) Berechnen sie den Wert von Spearmans rho. (b) Wie ändert sich dieser Wert für π¦π = π₯π 1/2 ? Beispiel (Körpergröße und Gewicht aus 4.2): π = Größe π π₯π π = Gewicht π π¦π 170 1 60 1 172 2 76 8 175 3 60* 2 176 4 75* 6 177 5 66 4 Es gilt: 180 6 65 3 180∗ 7 78 9 πππ = 0,76 183 8 75 7 185 9 87 11 187 10 72 5 188 11 90 12 190 12 82 10 194 13 92 13 * Bindung ist ein Artefakt der Rundung πππ π = 0,75 Zusammenhang zwischen „normalen“ und Rangkorrelationskoeffizienten πππ = 1 = πππ π πππ = 0.98 < 1 = πππ π πππ = 0.96 < 1 = πππ π Denkspiel für Tüftler (gibt einen Bonuspunkt für die Übungen): Konstruieren Sie ein Datensatz mit πππ > 0.9 und πππ π < − 0.9 So was gibt es tatsächlich. Ist aber leicht pervers. Man kann sogar Datensätze konstruieren mit πππ beliebig nahe an +1 und πππ π beliebig nahe an -1. π Satz 4.3 (Alternative Darstellung von πππ ): Sind alle π₯π und alle π¦π verschieden (keine „Bindungen“), so gilt ππΉ πΏπ = π − π π π=π πΉ ππ − πΉ(ππ ) π(ππ − π) π Beweis: Ausnutzen, dass die π (π₯π ) und π (π¦π ) gerade die Menge der natürlichen Zahlen π = 1,2, … , π ausschöpfen und die folgenden altbekannten Summenformeln verwenden: π π=1 π = π(π+1) 2 und π 2 π π=1 = π(π+1)(2π+1) 6 Alternative Herangehensweise (M. Kendall, 1907 – 1983): Betrachte alle Paare π₯π , π¦π und (π₯π , π¦π ): Das Paar (von Paaren) heißt konkordant ⇔ π₯π > π₯π und π¦π > π¦π oder π₯π < π₯π und π¦π < π¦π Das Paar heißt diskordant ⇔ π₯π > π₯π und π¦π < π¦π oder π₯π < π₯π und π¦π > π¦π y . . (x2,y2) (x1,y1) konkordant x y . (x2,y2) diskordant . x (x1,y1) πΆ β Anzahl konkordanter Paare π· β Anzahl diskordanter Paare ππ β Anzahl Bindungen in π ππ β Anzahl Bindungen in π π(π−π) Bei einem bivariaten Datensatz vom Umfang n gibt es Paare π insgesamt (wenn wir ein Paar nur durch die Partner definieren, d.h. Reihenfolge egal). Zunächst zur Vereinfachung: keine Bindungen. Definition: πΊ = πͺ − π« heißt Kendallscher S-Koeffizient Trivial: − π−π π ≤πΊ≤ π(π−π) π Definition: ππΏπ π» = πͺ−π« π(π − π)/π heißt Kendall‘scher tau-Koeffizient. Trivial: −π ≤ ππΏπ π» ≤ π Im Ausgangsbeispiel: π = 13, πΆ = 62, π· = 16, d.h. πππ π = 46 78 π(π−1) 2 = 13 β 6 = 78, = 0.59 Vorteil: Man muss noch nicht einmal die Ränge kennen! Weiterer großer Vorteile gegenüber Spearmans rho (wie auch gegenüber dem Bravais-Pearson-Korrelationskoeffizienten): Kendalls tau hat eine schöne inhaltliche Interpretation: ππΏπ π» = Anteil konkordanter Paare - Anteil diskordanter Paare Zusammenhang von Kendalls tau und Spearmans rho: Satz 4.4: Bei Abwesenheit von Bindungen gilt immer −π ≤ πππΏπ π» − πππΏπ πΉ ≤ π Beweis: Siegel, S., and Castellan, N.J. (1988). Nonparametric statistics for the behavioral sciences (2nd Ed.). New York, NY. Im Ausgangsbeispiel: 3πππ π = 1.693 2πππ π = 1.506 Graphische Darstellung von Kendalls tau: Nr. Rang(X) Rang(Y) 1 1 2 2 2 1 3 3 4 4 4 3 π = 4, π(π−1) 2 1 = 6, πΆ = 4, π· = 2, d.h. πππ π = 3 Dabei entspricht D der Anzahl der Überschneidungen in folgendem Diagramm („Rangdiagramm“): Rang(y) Rang (x) Etwas komplizierter: Es existieren Bindungen! Definition: Im Fall von Bindungen ist der Kendallsche tau-Koeffizient gegeben durch ππ»πΏπ = πͺ−π« πͺ + π« + π»π πͺ + π« + π»π π(π−1) Für ππ = ππ = 0 ist der Nenner = , d.h. die beiden 2 Formeln liefern identische Ergebnisse.