6. Zusammenhangsmaße (Kovarianz und Korrelation) Problemstellung: Bisher: Eine Variable pro Merkmalsträger, Stichprobe x1,…, xn Gesucht: Maße für Durchschnitt, Streuung, usw. Jetzt: Zwei (metrische!) Variablen pro Merkmalsträger, Stichprobe (x1, y1),…,(xn, yn) Gesucht: Geeignetes Maß für den Zusammenhang Beispiele: Merkmalsträger: BA-Studenten Variable 1: Körpergröße Variable 2: Gewicht Merkmalsträger: Mietwohnungen in Siegen Variable 1: Größe in m2 Variable 2: Mietpreis Merkmalsträger: Gebrauchtwagen Variable 1: Alter Variable 2: Kaufpreis Merkmalsträger: Tägliche Aktienkurse Variable 1: Bayer-Aktie Variable 2: BASF-Aktie 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 35 - Beispiel: Kurse zweier Aktien X und Y an 9 aufeinander folgenden Börsentagen: Zeitpunkt 1 2 3 4 5 6 7 8 9 Aktie X Aktie Y 5 8 6 7 11 9 8 10 13 11 8 10 10 11 16 12 13 12 1. Schritt: Graphische Darstellung der Daten in einem zweidimensionalen Streudiagramm (Scatterplot) 20,00 Y 15,00 10,00 5,00 0,00 0,00 5,00 10,00 15,00 20,00 X 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 36 - 2. Schritt: Die arithmetischen Mittel ausrechnen x 10 und y 10 und als Linien in das Koordinatensystem zeichnen. → 4 Quadranten 20,00 Y II. (-) I. (+) 15,00 10,00 5,00 III. (+) 0,00 0,00 5,00 IV. (-) 10,00 15,00 20,00 X Quadrant I.: xi x und yi y („+ ∙ + = +“ → pos. Zshg.) Quadrant II.: xi x und yi y („– ∙ + = –“ → neg. Zshg.) Quadrant III.: xi x und yi y („– ∙ – = +“ → pos. Zshg.) Quadrant IV.: xi x und yi y („+ ∙ – = –“ → neg. Zshg.) Positiver Zusammenhang → Häufung der Punkte in I. und III. Negativer Zusammenhang → Häufung der Punkte in II. und IV. Kein Zusammenhang → Gleichmäßige Belegung der Quadranten. 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 37 - 3. Schritt: Berechnung des „Trefferquotienten“ 20,00 Y II. (-) I. (+) 15,00 10,00 5,00 III. (+) 0,00 0,00 5,00 IV. (-) 10,00 15,00 20,00 X Belegung der einzelnen Quadranten: Quadrant I.: 3,5 Quadrant II.: 1,5 Quadrant III.: 3 Quadrant IV.: 1 ∑ 6,5 ∑ 2,5 D.h.: I und III „gewinnen“ gegen II und IV mit 6,5:2,5 („Trefferquotient“) Trefferquotient > 1 → Positiver Zusammenhang. Trefferquotient < 1 → Negativer Zusammenhang. Trefferquotient = 1 → Kein Zusammenhang. Aber … 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 38 - … „Trefferquotient“ ist als Maß für den Zusammenhang zu „grob“. Beispiel: Tägliche Kurse zweier Aktien X und Y über zwei Wochen: 1. Woche 2. Woche Zeitpunkt 1 2 3 4 5 1 2 3 4 5 Aktie X Aktie Y 10 12 10 11 11 12 8 9 9 8 11 13 10 11 13 10 9 9 7 7 x y 10 1. Woche 14 2. Woche 14 13 13 Y x y 10 Y 12 11 9 8 10 9 11 10 12 8 7 7 6 6 6 7 8 9 10 11 12 13 X 14 6 7 8 9 10 11 12 13 14 X Offensichtlich: Zusammenhang ist in der zweiten Woche „ausgeprägter“. Problem: „Trefferquotient“ ist in beiden Wochen gleich. Lösung: Berücksichtigung der Lage der einzelnen Datenpunkte, relativ betrachtet zu den arithmetischen Mitteln → unterschiedliche Gewichtung der Punkte (xi, yi) 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 39 - Die unterschiedliche Gewichtung erfolgt durch Betrachtung der „Flächen“, die die Punkte mit den arithmetischen Mitteln bilden. (x1, y1) x1 – (x2, y2) x2 – y1 – y2 – Achtung! Negative „Fläche“! Für die „Flächen“, also die Gewichte der Punkte (xi, yi), i = 1,…, n, gilt: xi x yi y > 0, falls xi x und yi y oder xi x und yi y = 0, falls xi x oder yi y < 0, falls xi x und yi y oder xi x und yi y Das arithmetische Mittel dieser Gewichte („Flächen“) ist ein geeignetes Maß für den Zusammenhang → Empirische Kovarianz 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 40 - Empirische Kovarianz von X und Y s *XY 1 n xi x yi y n i 1 Berechnung der Kovarianz im Beispiel: Kurse zweier Aktien X und Y an 9 aufeinander folgenden Börsentagen: Zeitpunkt 1 2 3 4 5 6 7 8 9 Aktie X Aktie Y 5 8 6 7 11 9 8 10 13 11 8 10 10 11 16 12 13 12 Arbeitstabelle: ∑ xi xi x yi yi y 5 6 11 8 13 8 10 16 13 90 -5 -4 1 -2 3 -2 0 6 3 0 8 7 9 10 11 10 11 12 12 90 -2 -3 -1 0 1 0 1 2 2 0 y 10 x 10 Alternativ: s*XY xi x yi y xi yi 10 12 -1 0 3 0 0 12 6 42 1 42 9 = 4,67 40 42 99 80 143 80 110 192 156 942 s*XY 1 n xi yi x y n i 1 = 942/9 – 10 ∙ 10 = 104,67 – 100 = 4,67 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 41 - (!) Satz: Es gilt: (a) s *XY s *X sY* ( s*X sY* s*XY s*X sY* ) (b) yi axi b mit a 0. s*XY s*X sY* Bravais-Pearson-Korrelationskoeffizient rXY s*XY s*X sY* i 1 ( xi x )( yi y ) n n 2 1 2 1 ( x x ) ( y y ) i i n n i 1 i 1 1 n n Im Beispiel: * s X 3, 40 9 * sY *2 24 s 1,63 Y 9 s X *2 104 rXY 4,67 0,84 3,4 1,63 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 42 - (!) Satz: Für den Bravais-Pearson-Korrelationskoeffizienten gilt: (a) -1 ≤ rXY ≤ 1. (b) rXY = 1 yi = axi + b mit a > 0 für alle i. 3 10,00 Y 8,00 Größter positiver linearer Zusammenhang: Alle Punkte liegen auf einer Geraden mit positiver Steigung. 6,00 4,00 2,00 1 0,00 0,00 2,00 4,00 6,00 8,00 10,00 X (c) rXY = -1 10,00 yi = axi + b mit a < 0 für alle i. 4 Y 8,00 6,00 4,00 2,00 0,00 0,00 Größter negativer linearer Zusammenhang: Alle Punkte liegen auf einer Geraden mit negativer Steigung. 2,00 4,00 6,00 1 8,00 10,00 X 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 43 - (!) Warnung 1: Vorsicht bei rXY 0 !!! Bedeutet rXY = 0, dass kein Zusammenhang besteht? ∑ xi yi xi ∙ yi s *XY 15 0 0 55 0 -2 -1 0 1 2 0 2 0,5 0 0,5 2 5 -4 -0,5 0 0,5 4 0 rXY s*XY ( s*X sY* ) 0 Aber es existiert ein perfekter funktionaler Zusammenhang: yi 12 xi2 Der Korrelationskoeffizient ist nur als Maß für den linearen Zusammenhang geeignet! (!) Warnung 2: Korrelation bedeutet nicht notwendig Kausalität !!! Eine hohe (positive oder negative) Korrelation zwischen X und Y kann mindestens folgende Ursachen haben: X Y Y X Z X ( X ist Ursache für Y ) und Z Y Zufall 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 44 - Optimale Kombination von Prognosen Situation: Prognose des mittleren Dollarkurses in 6 Monaten: Prognose Volatilität Commerzbank ( X ) 0,60 € ( x ) * 0,05 € ( s X ) Deutsche Bank ( Y ) 0,80 € ( y ) * 0,10 € ( sY ) Aus vergangenen Prognosen bekannt: rXY = – 0,25 Gesucht: Eine Kombination der beiden Prognosen, und zwar derart, dass das Risiko (Volatilität) minimiert wird. Naheliegend: Betrachte ein gewogenes arithmetisches Mittel der beiden Prognosen. Der mittlere Dollarkurs ist dann z w1 x w2 y . Wähle die Gewichte w1 und w2 so, dass sZ* ( bzw. sZ*2 ) minimal wird. 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 45 - Wesentlicher Nachteil: Der Bravais-Pearson-Korrelationskoeffizient ist nur für metrisch skalierte Merkmale definiert. Allerdings ist ein Zusammenhang durchaus auch für ordinale (oder nominale) Merkmale sinnvoll. Beispiel: Merkmalsträger: 8 Angestellte Merkmal X : Bildungsabschluss Merkmal Y : Jahresgehalt (netto) in 1000 € Angestellter 1 2 3 4 5 6 7 8 xi Abi Haupt- Abi Fach- Haupt- Abi Univer- Mittlere schule hoch- schule sität Reife schule yi 25 22 27 30 26 40 45 35 I.d.R. gilt: Je höher der Abschluss, desto höher das Gehalt. Gesucht: Maß für den Zusammenhang Problem: Bravais-Pearson-Korrelationskoeffizient ist nicht berechenbar. Ausweg: Ersetze die Merkmalsausprägungen durch ihre Ränge R(xi) bzw. R(yi) , und berechne den Bravais-Pearson-Korrelationskoeffizienten mit diesen Rängen ( Voraussetzung: Wenigstens ordinales Niveau ). 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 46 - Rangkorrelationskoeffizient nach Spearman i 1 ( R( xi ) RX )( R( yi ) RY ) n n 2 ( R ( x ) R ) i 1 i X i 1 ( R( yi ) RY )2 n rS , XY Angestellter 1 2 3 4 5 6 xi A HS A FH HS A Uni M.R. R(xi) yi R(yi) 4 25 7 7,5 22 8 4 27 5 2 30 4 7,5 26 6 4 40 2 1 45 1 Lösung: 7 8 6 35 3 rS,XY = 0,638 (!) Satz (Spezialfall): Falls bei X und Y jeweils alle Ränge verschieden sind, dann gilt: 6 i 1 ( R ( xi ) R( yi )) 2 n rS , XY 1 (n 1) n (n 1) 6. Zusammenhangsmaße (Kovarianz und Korrelation) - 47 -