Schein- und NonsensKorrelation Scheinkorrelation: zwei Merkmale hängen beide von einem weiteren dritten ab Korrelation und Assoziation Nonsenskorrelation: zwei Merkmale haben eine hohe Korrelation, aber keinen ursächlichen Zusammenhang 1 Korrelation und Assoziation Stärke eines Zusammenhanges zwischen zwei Merkmalen: Korrelation oder Assoziation Form eines Zusammenhanges zwischen Merkmalen: Regression • Wahl einer geeigneten Maßzahl hängt jeweils vorliegenden Skalenniveaus der beiden Merkmale X und Y ab 2 Korrelations- und Assoziationsmaße Korrelation: beide Merkmale haben mindestens ordinales Skalenniveau Assoziation: mindestens ein Merkmal hat „nur“ nominales Skalenniveau • Haben die beiden Variablen unterschiedliches Niveau, so kann ein Koeffizient gewählt werden, der zu dem niedrigeren Niveau gehört. • Alternativ muss man auf einen Koeffizienten ausweichen, der für unterschiedliche Skalenniveaus entwickelt worden ist. 3 4 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson empirische Kovarianz sxy empirische Korrelationskoeffizient rxy s xy := 1 n ∑ ( xi − x ) ⋅ ( yi − y ) n − 1 i =1 n rxy := verallgemeinerte Varianz s xx 1 n 1 n 2 2 = ∑ ( xi − x )( xi − x ) = ∑ ( xi − x ) = s x . n − 1 i =1 n − 1 i =1 ∑ ( xi − x ) ⋅ ( yi − y ) s xy sx ⋅ s y = i =1 n 2 n 2 ( ) x − x ⋅ ∑ ( yi − y ) ∑ i i =1 i =1 . − 1 ≤ rxy ≤ +1. − ∞ ≤ s xy ≤ +∞. 5 Korrelationskoeffizient nach Bravais-Pearson 6 Korrelationskoeffizient nach Bravais-Pearson (Beispiele nichtlinearer Zusammenhänge) • ist nur geeignet den Grad der linearen Abhängigkeit zwischen den beiden Variablen X und Y zu messen. • Zusammenhänge anderer Form, z.B. quadratische Zusammenhänge, werden nicht erkannt • Die Interpretation des Korrelationskoeffizienten sollte daher immer im Zusammenhang mit der grafischen Darstellung der Daten (Scatterplot) erfolgen. rXY = 0 7 8 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson (Beispiele nichtlinearer Zusammenhänge) (Referenzdiagramme) 4 5 3 4 2 3 y y 1 -0 2 1 -1 0 -2 rXY = -0.17 -3 rXY = 0.70 -1 -3 -2 -1 -0 1 2 3 -3 -2 -1 x -0 x 1 2 3 rXY = 0 9 10 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson Alternative Berechnung der Kovarianz mit (Referenzdiagramme) s xy = 4 3 rXY = -1.00 3 2 s xy = 2 1 y y 1 1 n 1 n ∑ ( xi − x ) ⋅ ( yi − y ) = ∑ ( xi ⋅ yi − xi ⋅ y − x ⋅ yi + x ⋅ y ) n − 1 i =1 n − 1 i =1 -0 -0 = n n n 1 n ∑ xi ⋅ yi − y ∑ xi − x ∑ yi + ∑ x ⋅ y n − 1 i =1 i =1 i =1 i =1 = 1 n ∑ xi ⋅ yi − n ⋅ x ⋅ y − n ⋅ x ⋅ y + n ⋅ x ⋅ y n − 1 i =1 = 1 n ∑ xi ⋅ yi − n ⋅ x ⋅ y n − 1 i =1 -1 -1 rXY = 0.97 -2 -3 -3 1 n ∑ xi ⋅ yi − n ⋅ x ⋅ y n − 1 i =1 -2 -1 -0 x 1 2 3 -2 -3 -3 -2 -1 -0 1 2 3 x 11 . 12 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson (Beispiel) Alternative Darstellung des Korrelationskoeffizienten Für n = 11 Rehaeinrichtungen wurde die Anzahl von beschäftigten Mitarbeiter(innen) sowie das ihnen zur Verfügung stehende jährliche Budget (in Tausend Euro) erhoben. n xi: Anz. Mit. 10 ∑ xi ⋅ yi − n ⋅ x ⋅ y rxy = yi: Budget i =1 8 13 9 11 14 6 4 12 7 5 80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8 n n 2 2 2 2 ∑ xi − n ⋅ x ∑ yi − n ⋅ y i =1 i =1 110 100 Budget 90 80 70 60 50 40 4 5 6 7 8 9 10 11 12 13 14 Anzahl der Mitarbeiter(innen) 13 14 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson (Beispiel) (Beispiel) xi: Anz. Mit. 10 yi: Budget 8 n 1 1 ⋅ ∑ yi = ⋅ 825 = 75 n i =1 11 11 14 6 4 12 7 5 s x2 = 1 n ⋅ ∑ ( xi − x )2 n − 1 i =1 ( 1 ⋅110 = 11 10 8 1 ⋅ 4120.6 = 412.06 10 11 14 6 4 12 7 5 ) 1 ⋅ (1 ⋅ 5.4 + (−1) ⋅ (−5.5) + 4 ⋅ 0.8 + 0 ⋅13.1 + 2 ⋅ 8.3 10 + 5 ⋅ 24.6 + ( −3) ⋅ (−2.6) + (−5) ⋅ (−32.4) + 3 ⋅ 33.3 + (−2) ⋅ (−26.8) + ( −4) ⋅ (−18.2) ) 1 ⋅ 549.80 = 54.98 10 rxy = 15 9 1 n ⋅ ∑ ( xi − x ) ⋅ ( yi − y ) n − 1 i =1 ( ) 13 80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8 = 1 ⋅ 5.4 2 + (−5.5) 2 + 0.82 + 13.12 + 8.32 + 24.6 2 10 + (−2.6) 2 + (−32.4) 2 + 33.32 + (−26.8) 2 + (−18.2) 2 = yi: Budget = 1 = ⋅ 12 + ( −1) 2 + 4 2 + 0 2 + 2 2 + 52 + ( −3) 2 + (−5) 2 + 32 + (−2) 2 + (−4) 2 10 1 n = ⋅ ∑ ( yi − y )2 n − 1 i =1 = xi: Anz. Mit. 10 s xy = = s 2y 9 80.4 69.5 75.8 88.1 83.3 99.6 72.4 42.6 108.3 48.2 56.8 1 n 1 x = ⋅ ∑ xi = ⋅ 99 = 9 n i =1 11 y= 13 s xy s x2 ⋅ s 2y . = 54.98 54.98 = = 0.8166 67 .3250 11 ⋅ 412.06 16 Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson (Sportfest) (Sportfest) Startnummer 1 2 3 4 5 6 7 8 100-m-Lauf(in sec) 11.1 11.9 11.3 12.3 12.7 12.1 11.5 12.9 Weitsprung (in m) 5.0 6.2 5.1 5.8 6.1 5.2 5.6 6.5 9 10 11 12 13 14 15 16 7.0 100-m-Lauf(in sec) 11.2 12.5 11.3 12.2 11.7 12.8 11.1 11.6 Weitsprung (in m) 6.3 5.3 6.0 5.1 6.8 6.7 5.4 6.4 Startnummer 17 18 19 20 21 22 23 24 100-m-Lauf(in sec) 11.4 12.0 11.5 12.6 11.4 12.4 11.8 11.2 Weitsprung (in m) 5.7 5.9 5.2 5.3 5.5 5.0 6.9 6.5 Weitsprung Startnummer 6.0 5.5 5.0 6.6 4.5 11.0 11.5 17 Korrelationskoeffizient nach Bravais-Pearson 12.0 12.5 13.0 100m - Lauf 18 Rangkorrelationskoeffizient nach Spearman (Sportfest) x= y= 1 n 1 ⋅ ∑ xi = ⋅ 284.5 = 11.8542 n i =1 24 1 n 1 ⋅ ∑ yi = ⋅139.6 = 5.8167 n i =1 24 rxy = s xy sx ⋅ s y = 0.0332 = 0.0925 0.5794 ⋅ 0.6194 xi ⋅ y i Startxi yi xi2 y i2 nummer 100m- Weitspr Lauf ung 1 11.1 5.0 123.21 25.00 55.50 2 11.9 6.2 141.61 38.44 73.78 3 11.3 5.1 127.69 26.01 57.63 4 12.3 5.8 151.29 33.64 71.34 5 12.7 6.1 161.29 37.21 77.47 6 12.1 5.2 146.41 27.04 62.92 7 11.5 5.6 132.25 31.36 64.40 8 12.9 6.5 166.41 42.25 83.85 9 11.2 6.3 125.44 36.69 70.56 10 12.5 5.3 156.25 28.09 66.25 11 11.3 6.0 127.69 36.00 67.80 12 12.2 5.1 148.84 26.01 62.22 13 11.7 6.8 136.84 46.24 79.56 14 12.8 6.7 163.84 44.89 85.76 15 11.1 5.4 123.21 29.16 59.94 16 11.6 6.4 134.56 40.96 74.24 17 11.4 5.7 129.96 32.49 64.98 18 12.0 5.9 144.00 34.81 70.80 19 11.5 5.2 132.25 27.04 59.80 20 12.6 5.3 158.76 28.09 66.78 21 11.4 5.5 129.96 30.25 62.70 22 12.4 5.0 153.76 25.00 62.00 23 11.8 6.9 139.24 47.61 81.42 24 11.2 6.6 125.44 43.56 73.92 Summe 284.5 139.6 3380.25 820.84 1655.62 19 (Spearmans ρ bzw. rs) Urliste x1,...,xn Falls: ⇒ x(1) < x(2 ) < L < x(n ) Ordnungsstatistik x(1),...,x(n) Rangzahl: R (x(i ) ):= i für alle i = 1,L, n . Bei Bindungen (engl. Ties): identische Beobachtungswerte erhalten dieselbe (mittlere) Rangzahl mittlere Rangzahl = arithmetisches Mittel der an dieselben Beobachtungswerte zu vergebenden Rangzahlen: 20 Rangkorrelationskoeffizient nach Spearman Rangkorrelationskoeffizient nach Spearman Gegeben sei die folgende Urliste eines Merkmals X mit n = 7 beobachteten Werten: Rangkorrelationskoeffizient nach Spearman: Korrelationskoeffizient nach Bravais-Pearson für die Rangzahlen x1 x2 x3 x4 x5 x6 x7 n ∑ (R( xi ) − R( x ))⋅ (R( yi ) − R( y )) 40 12 10 12 31 31 31 rs := x3=x(1) x2=x(2) x4=x(3) x5=x(4) x6=x(5) x7=x(6) x1=x(7) 10 12 12 31 31 31 i =1 n 2 R(x(1)) R(x(2)) R(x(3)) R(x(4)) R(x(5)) R(x(6)) R(x(7)) 2.5 2.5 5 5 5 2 ∑ (R( xi ) − R( x )) ⋅∑ (R( yi ) − R( y )) 40 i =1 1 n 7 mit R( x ) = R( y ) = i =1 n +1 2 Es gilt: − 1 ≤ rs ≤ 1 21 22 Rangkorrelationskoeffizient nach Spearman Rangkorrelationskoeffizient nach Spearman (Beispiel mit Bindungen) Liegen keine Bindungen vor, so lässt sich rs einfacher berechnen. Mit di = R( xi ) − R( yi ) Schüler Mathematik Musik R(Mathematik) R(Musik) gilt dann n 6 ⋅ ∑ di2 rs = 1 − Für n = 8 Schüler ergab eine Umfrage die folgenden Schulnoten in den Fächern “Mathematik” und “Musik”. i =1 3 A 3 2 5 3.5 B 4 4 7 7 C 1 5 1 8 D 5 3 8 5.5 E 3 1 5 1.5 F 2 1 2.5 1.5 G 2 2 2.5 3.5 H 3 3 5 5.5 Rangzahl 5 (Mathematik) für A, E und H ist Bindung n −n 23 24 Rangkorrelationskoeffizient nach Spearman Rangkorrelationskoeffizient nach Spearman (Beispiel mit Bindungen) (Beispiel mit Bindungen) n R( x ) = R( y ) = ∑ (R( xi ) − R( x ))⋅ (R( yi ) − R( y )) n +1 8 +1 = = 4.5 . 2 2 Für n = 8 Schüler ergab eine Umfrage die folgenden Schulnoten in den Fächern “Mathematik” und “Musik”. i =1 = 0.5 ⋅ (− 1) + 2.5 ⋅ 2.5 + (− 3.5) ⋅ 3.5 + 3.5 ⋅1 n + 0.5 ⋅ (− 3) + (− 2 ) ⋅ (− 3) + (− 2 ) ⋅ (− 1) + 0.5 ⋅1 2 ∑ (R( xi ) − R( x )) i =1 2 = 0.5 + 2.5 2 = −0.5 + 6.25 − 12.25 + 3.5 − 1.5 + 6 + 2 + 0.5 = 4 + (− 3.5)2 + 3.52 + 0.52 + (− 2 )2 + (− 2 )2 + 0.52 = 0.25 + 6.25 + 12.25 + 12.25 + 0.25 + 4 + 4 + 0.25 = 39.5 n 2 ∑ (R( yi ) − R( y )) i =1 = (− 1)2 + 2.52 + 3.52 + 12 + (− 3)2 + (− 3)2 + (− 1)2 + 12 Schüler Mathematik Musik R(Mathematik) R(Musik) = 1 + 6.25 + 12.25 + 1 + 9 + 9 + 1 + 1 = 40.5 . rs = A 3 2 5 3.5 rs = B 4 4 7 7 C 1 5 1 8 D 5 3 8 5.5 E 3 1 5 1.5 F 2 1 2.5 1.5 G 2 2 2.5 3.5 H 3 3 5 5.5 4 = 0.10. 39.5 ⋅ 40.5 Es liegt also nur eine sehr geringe Rangkorrelation zwischen den beiden Schulfächern vor. Aus der Mathematiknote lässt sich nicht auf die Musiknote schließen und umgekehrt. 4 = 0.10. 39.5 ⋅ 40.5 25 26 Rangkorrelationskoeffizient nach Spearman Rangkorrelationskoeffizient nach Spearman (Beispiel ohne Bindungen) (Beispiel ohne Bindungen) Bei einer Besetzung für eine freie Mitarbeiterstelle wurden n=6 Kandidaten sowohl einem Wissenstest als auch einem psychologischen Test unterzogen. Es sollte untersucht werden, ob die Ergebnisse der beiden Testreihen miteinander korrelieren. Ermittelt wurden dazu die Rangreihenfolgen der sechs Kandidaten bei den beiden Tests. Eine Berechnung der Rangzahlen ist damit nicht mehr nötig. Es ergab sich: Bewerber Wissenstest Psychologischer Test Bewerber A di = R(xi) - R(yi) 1 A 6 5 B 1 3 C D 5 2 4 2 E F 3 4 1 6 B C D E F -2 1 0 2 -2 6 Bewerber Wissenstest Psychologischer Test A 6 5 B C D 1 5 2 3 4 2 ∑ di2 = 12 + (− 2)2 + 12 + 02 + 22 + (− 2)2 = 14. E F 3 4 1 6 i =1 6 ⋅14 14 2 3 rs = 1 − 3 = 1 − = 1 − = = 0.6. 5 5 35 6 −6 27 28 Rangkorrelationskoeffizient nach Spearman Kontingenzkoeffizient nach Pearson (Beispiel ohne Bindungen) Bewerber Wissenstest Psychologischer Test A 6 5 B C D 1 5 2 3 4 2 E F 3 4 1 6 Assoziationsmaß für zwei nominale Merkmale 6 ⋅14 14 2 3 rs = 1 − 3 = 1 − = 1 − = = 0.6. 5 5 35 6 −6 o jl 1 2 3 4 5 6 B D E F C A E D B C A F ( 29 (o jl − e jl )2 j =1l =1 e jl ( ) ( o jl = H a j , bl ) e jl erwartete Häufigkeiten, die sich bei Unabhängigkeit von X und Y ergeben e jl := n j . ⋅ n.l n „o” = observed und „e” = expected 0≤C < 30 min (k , m ) − 1 min (k , m ) k und m sind die Anzahl der Spalten bzw. der Zeilen der Häufigkeitstabelle Kontingenzkoeffizienten C: C := ) von Es gilt für den Kontingenzkoeffizienten: k m ∑∑ Kombination Kontingenzkoeffizient nach Pearson Konstruktion einer Hilfsgröße: χ 2 χ := der Spaltensumme mal Zeilensumme durch Gesamtsumme Kontingenzkoeffizient nach Pearson 2 Häufigkeiten Merkmalsausprägungen a j , bl , j = 1, L , k , l = 1, L , m, Es besteht also ein Zusammenhang zwischen dem Ergebnis der beiden Tests. Wer im Wissenstest gut war, schneidet auch beim psychologischen Test gut ab. Wer schlecht beim Wissenstest ist, gehört auch beim psychologischen Test zu den schlechten Kandidaten. Rang Wissenstest Psych. Test beobachteten χ2 korrigierter Kontingenzkoeffizient C: 2 χ +n Ccorr = 31 min (k , m ) ⋅C min (k , m ) − 1 32 Kontingenzkoeffizient nach Pearson Kontingenzkoeffizient nach Pearson Es gilt für den korrigierten Kontingenzkoeffizienten: Wichtiger Hinweis: Die oben genannte Hilfsgröße heißt χ 2 , da sie gut durch eine statistische 0 ≤ Ccorr ≤ 1 Verteilung, nämlich eine χ 2 -Verteilung beschrieben werden kann. Die χ 2 -Verteilung ist eine stetige (theoretische) Verteilung; hier liegt jedoch Ccorr = 1 ⇒ strikte Abhängigkeit nur diskretes Datenmaterial vor. Damit eine Approximation an eine χ 2 -Verteilung gut ist, sollten nach Bei Unabhängigkeit gilt: Ccorr = 0 Cochran (1954) mindestens 80% aller erwarteten Häufigkeiten ejl einer Mehrfeldertafel die folgende Faustformel erfüllen: e jl ≥ 5 33 34 Kontingenzkoeffizient nach Pearson Faustformel: Beispiel (Joe Cocker/Prince) e jl ≥ 5 Achtung: Die bei Unabhängigkeit zu erwartenen Häufigkeiten sollen die Faustformel erfüllen, nicht die beobachteten! Ist dies nicht der Fall, so müssen benachbarte Zeilen oder Spalten nach sachlogischen Gesichtspunkten so lange zusammengefasst werden, bis obige Faustformel erfüllt ist. Die oben erwähnte Korrektur des Kontingenzkoeffizienten ist aber nur dann inhaltlich gerechtfertigt, wenn dadurch keine Verfälschung von Populationsverhältnissen auftritt 35 Rauchverhalten Sänger R N Prince 5 6 11 Joe Cocker 8 6 14 13 12 25 Für die erwarteten Häufigkeiten ejl ergibt sich: Sänger Prince Joe Cocker Rauchverhalten R N 5.72 5.28 7.28 6.72 13 12 11 14 25 36 Beispiel (Joe Cocker/Prince) Rauchverhalten Sänger R N Prince 5 6 Joe Cocker 8 6 14 13 12 25 χ2 = = Rauchverhalten R N 5.72 5.28 7.28 6.72 13 12 Sänger Prince Joe Cocker 11 Beispiel (Nationen im Pflegeheim) In einem Pflegeheim der Stadt Astadt wurden auf den insgesamt zwei Stationen Patient(inn)en aus drei Nationen gepflegt. Als Zusammenhangsmaß von Stationen und Nationalität der Patient(inn)en ergab sich ein Kontingenzkoeffizient C von 0.68. In der Gemeinde Bstadt wurden in einem Heim auf vier Stationen ebenfalls Patient(inn)en aus drei Nationen gepflegt. Hier ergab sich ein Wert von C = 0.7. Um die beiden Heime miteinander vergleichen zu können, wurde jeweils der korrigierte Kontingenzkoeffizient ermittelt. Dabei ergibt sich: 11 14 25 (5 − 5.72)2 + (6 − 5.28)2 + (8 − 7.28)2 + (6 − 6.72)2 5.72 7.28 5.28 (− 0.72)2 + 0.722 + 0.722 + (− 0.72)2 5.72 C= Ccorr = 5.28 7.28 6.72 6.72 = 0.3215 0.3215 = 0.1127 0.3215 + 25 min (2,2 ) ⋅ C = 2 ⋅ 0.1127 = 0.1594 min (2,2 ) − 1 Somit gewinnt man den Eindruck, dass kein Zusammenhang zwischen 37 Rauchverhalten und Musikgeschmack vorliegt Ccorr ( Astadt ) = 2 ⋅ 0.68 = 0.96 2 −1 Ccorr (Bstadt ) = 3 ⋅ 0.70 = 0.85 3 −1 Im Heim der Gemeinde Astadt ist also ein höherer Zusammenhang zwischen den Merkmalen Station und Nationalität der Patienten festzustellen als in dem Heim der 38 Gemeinde Bstadt. Assoziationskoeffizient nach Yule Assoziationskoeffizient nach Yule M erkm al alternative Maßzahl für zwei nominalskalierte Merkmale X und Y, die jeweils nur über zwei mögliche Ausprägungen (dichotome Merkmale) Sum m e X b1 bm a1 H (a 1 ,b 1 ) H ( a 1 ,b 2 ) n 1. a2 H (a 2 ,b 1 ) H ( a 2 ,b 2 ) n 2. Sum m e n .1 n .2 n Alternative zum Kontingenzkoeffizienten nach Pearson Vorteil: Berechnung sehr viel einfacher und direkter Y Seien a1, a2 die Ausprägungen des Merkmals X und b1, b2 die Ausprägungen des Merkmals Y. Dann ist Q := 39 H (a1, b1 ) ⋅ H (a2 , b2 ) − H (a1, b2 ) ⋅ H (a2 , b1 ) H (a1, b1 ) ⋅ H (a2 , b2 ) + H (a1, b2 ) ⋅ H (a2 , b1 ) o ⋅o − o ⋅o Q := 11 22 12 21 o11 ⋅ o22 + o12 ⋅ o21 40 Assoziationskoeffizient nach Yule Assoziationskoeffizient nach Yule Vertauschen der Zeilen oder Spalten ⇒ Wechsel des Vorzeichens Für den Koeffizienten gilt: − 1 ≤ Q ≤ 1. für nominale Merkmale gibt es keine natürliche Ordnung der Ausprägungen Für Q = 0 liegt Unabhängigkeit vor, für |Q| = 1starke Abhängigkeit. Nur für Kontingenztafeln bei denen für beide Merkmale eine Ordnung der Ausprägungen gegeben ist – etwa gruppierte metrische Merkmale – wird das Vorzeichen in die Interpretation einbezogen. Bei der Interpretation des Assoziationskoeffizienten wird i.allg. nur der absolute Wert des Koeffizienten berücksichtigt, nicht aber das Vorzeichen. 41 Assoziationskoeffizient nach Yule Sänger P r in c e Joe C ocker R a u c h v e r h a lte n R N 5 6 8 6 13 12 Assoziationskoeffizient nach Yule Q kann nur dann den Wert Eins annehmen kann, wenn mindestens ein Wert auf der Nebendiagonale den Wert Null annimmt. 11 14 25 X Y a1 a2 b1 100 0 b2 0 100 Tafel A (Q = 1) 5 ⋅ 6 − 6 ⋅ 8 − 18 Q= = = −0.2308 . 5 ⋅ 6 + 6 ⋅ 8 78 Sänger Joe C ocker P r in c e Q= R a u c h v e r h a lte n R N 8 6 5 6 13 12 42 Y a1 a2 b1 100 0 b2 50 100 Tafel B (Q = 1) Während bei Tafel A eine wirklich strikte Assoziation zwischen den Merkmalen X und Y vorliegt (zu je einer Ausprägung von X gehört genau eine Ausprägung von Y, ist dies bei Tafel B nicht gegeben. Dort ist nur bei je einer Ausprägung von X bzw. Y eine genaue Vorhersage von Y bzw. X möglich. 14 11 25 8 ⋅ 6 − 5 ⋅ 6 18 = = 0.2308 . 8 ⋅ 6 + 5 ⋅ 6 78 X 43 44 Der Eta-Koeffizient Der Eta-Koeffizient • Berechne von der gesamten Stichprobe das arithmetische Mittel und die empirische Varianz des metrischen Merkmals Y. Beispiel einer Maßzahl für zwei unterschiedlich skalierte Merkmale X und Y. • Sei nj der Umfang der j-ten Teilpopulation, die durch das nominale Merkmal X gebildet wird (k Teilstichproben). Sei X ein nominales Merkmal mit k Ausprägungen. • Berechne dann zu jeder Teilpopulation das arithmetische Mittel y j • Berechne dann das Quadrat des Eta-Koeffizienten mit: Y sei metrisch skaliert. 1 k ⋅ ∑nj ⋅ y j − y 2 n − 1 i =1 ( Der Eta-Koeffizient soll messen, inwieweit die Information der nominalen Variablen zur Erklärung der Variabilität der metrischen Variablen herangezogen werden kann. η2 = ) s 2y 45 46 Der Eta-Koeffizient Der Eta-Koeffizient Geschlecht X CD-Anzahl Y • Berechne dann den Eta-Koeffizienten mit: m 144 w 78 m 52 m 348 w 52 w 10 m 0 m 48 w 25 y = 79.6 und s y2 = 10502.267 η = η2 Wieviel Prozent der Gesamtvariabilität lässt sich durch das Geschlecht erklären? Der Eta-Koeffizient soll messen, inwieweit die Information der nominalen Variablen zur Erklärung der Variabilität der metrischen Variablen herangezogen werden kann. Es gilt: m 39 yw = 78 + 52 + 10 + 25 39 + L + 48 = 41.25 ym = = 105.17 4 6 1 ⋅ 4 ⋅ (41.25 − 79.6 )2 + 6 ⋅ (105.17 − 79.6 )2 2 9 η = = 0.104 10502.267 ( ) η = η 2 = 0.104 = 0.323 −1 ≤ η ≤ 1 47 Knapp ein Drittel der Gesamtvariabilität kann durch das Geschlecht erklärt werden. 48 Korrelations-/Assoziationsmaße Skalenniveau metrisch ordinal nominal metrisch rxy rs C/Ccorr/η ordinal rs rs C/Ccorr nominal C/Ccorr/η C/Ccorr C/Ccorr Bei Vorliegen zweier dichotomer Merkmale ist immer auch Q als sinnvolle alternative Maßzahl möglich. 49