Beispiele aus dem täglichen Leben

Werbung
6. Zusammenhangsmaße
(Kovarianz und Korrelation)
 Problemstellung:
 Bisher:
Eine Variable pro Merkmalsträger,
Stichprobe x1,…, xn
 Gesucht:
Maße für Durchschnitt, Streuung, usw.
 Jetzt:
Zwei (metrische!) Variablen pro Merkmalsträger,
Stichprobe (x1, y1),…,(xn, yn)
 Gesucht:
Geeignetes Maß für den Zusammenhang
 Beispiele:
 Merkmalsträger: BA-Studenten
 Variable 1: Körpergröße
 Variable 2: Gewicht
 Merkmalsträger: Mietwohnungen in Siegen
 Variable 1: Größe in m2
 Variable 2: Mietpreis
 Merkmalsträger: Gebrauchtwagen
 Variable 1: Alter
 Variable 2: Kaufpreis
 Merkmalsträger: Tägliche Aktienkurse
 Variable 1: Bayer-Aktie
 Variable 2: BASF-Aktie
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 35 -
Beispiel:
Kurse zweier Aktien X und Y an 9 aufeinander folgenden Börsentagen:
Zeitpunkt
1
2
3
4
5
6
7
8
9
Aktie X
Aktie Y
5
8
6
7
11
9
8
10
13
11
8
10
10
11
16
12
13
12
1. Schritt: Graphische Darstellung der Daten in einem
zweidimensionalen Streudiagramm (Scatterplot)
20,00
Y
15,00






10,00



5,00
0,00
0,00
5,00
10,00
15,00
20,00
X
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 36 -
2. Schritt: Die arithmetischen Mittel ausrechnen
x  10 und y  10
und als Linien in das Koordinatensystem zeichnen.
→
4 Quadranten
20,00
Y
II. (-)
I. (+)
15,00






10,00



5,00
III. (+)
0,00
0,00
5,00
IV. (-)
10,00
15,00
20,00
X
Quadrant I.:
xi  x und yi  y
(„+ ∙ + = +“ → pos. Zshg.)
Quadrant II.:
xi  x und yi  y
(„– ∙ + = –“ → neg. Zshg.)
Quadrant III.:
xi  x und yi  y
(„– ∙ – = +“ → pos. Zshg.)
Quadrant IV.:
xi  x und yi  y
(„+ ∙ – = –“ → neg. Zshg.)
Positiver Zusammenhang → Häufung der Punkte in I. und III.
Negativer Zusammenhang → Häufung der Punkte in II. und IV.
Kein Zusammenhang
→ Gleichmäßige Belegung der Quadranten.
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 37 -
3. Schritt: Berechnung des „Trefferquotienten“
20,00
Y
II. (-)
I. (+)
15,00






10,00



5,00
III. (+)
0,00
0,00
5,00
IV. (-)
10,00
15,00
20,00
X
Belegung der einzelnen Quadranten:
Quadrant I.:
3,5
Quadrant II.:
1,5
Quadrant III.:
3
Quadrant IV.:
1
∑ 6,5
∑ 2,5
D.h.: I und III „gewinnen“ gegen II und IV mit 6,5:2,5 („Trefferquotient“)
Trefferquotient > 1
→
Positiver Zusammenhang.
Trefferquotient < 1
→
Negativer Zusammenhang.
Trefferquotient = 1
→
Kein Zusammenhang.
Aber …
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 38 -
… „Trefferquotient“ ist als Maß für den Zusammenhang zu „grob“.
Beispiel:
Tägliche Kurse zweier Aktien X und Y über zwei Wochen:
1. Woche
2. Woche
Zeitpunkt
1
2
3
4
5
1
2
3
4
5
Aktie X
Aktie Y
10 12
10 11
11
12
8
9
9
8
11 13 10
11 13 10
9
9
7
7
x  y  10
1. Woche
14
2. Woche
14

13
13
Y
x  y  10
Y

12

11

9

8

10

9

11

10
12
8

7
7
6
6
6
7
8
9
10
11
12
13
X
14
6
7
8
9
10
11
12
13
14
X
Offensichtlich: Zusammenhang ist in der zweiten Woche „ausgeprägter“.
Problem:
„Trefferquotient“ ist in beiden Wochen gleich.
Lösung:
Berücksichtigung der Lage der einzelnen Datenpunkte,
relativ betrachtet zu den arithmetischen Mitteln
→ unterschiedliche Gewichtung der Punkte (xi, yi)
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 39 -
Die unterschiedliche Gewichtung erfolgt durch Betrachtung der
„Flächen“, die die Punkte mit den arithmetischen Mitteln bilden.
(x1, y1)
x1 –

(x2, y2)
x2 –
y1 –

y2 –
Achtung!
Negative
„Fläche“!
Für die „Flächen“, also die Gewichte der Punkte (xi, yi), i = 1,…, n, gilt:
xi  x    yi  y 
> 0, falls xi  x und
yi  y
oder xi  x und
yi  y
= 0, falls xi  x oder yi  y
< 0, falls xi  x und
yi  y
oder xi  x und
yi  y
Das arithmetische Mittel dieser Gewichte („Flächen“) ist ein geeignetes
Maß für den Zusammenhang
→ Empirische Kovarianz
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 40 -
Empirische Kovarianz von X und Y
s *XY
1 n
  xi  x  yi  y 
n i 1
Berechnung der Kovarianz im Beispiel:
Kurse zweier Aktien X und Y an 9 aufeinander folgenden Börsentagen:
Zeitpunkt
1
2
3
4
5
6
7
8
9
Aktie X
Aktie Y
5
8
6
7
11
9
8
10
13
11
8
10
10
11
16
12
13
12
Arbeitstabelle:
∑
xi
xi  x
yi
yi  y
5
6
11
8
13
8
10
16
13
90
-5
-4
1
-2
3
-2
0
6
3
0
8
7
9
10
11
10
11
12
12
90
-2
-3
-1
0
1
0
1
2
2
0
y  10
x  10
Alternativ:
s*XY
xi  x    yi  y 
xi  yi
10
12
-1
0
3
0
0
12
6
42
 1  42
9
= 4,67
40
42
99
80
143
80
110
192
156
942
s*XY
1 n
  xi yi  x  y
n i 1
= 942/9 – 10 ∙ 10 = 104,67 – 100 = 4,67
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 41 -
(!) Satz:
Es gilt:
(a)
s *XY  s *X sY*
(  s*X sY*  s*XY  s*X sY* )
(b)
 yi  axi  b
mit a  0.
s*XY  s*X sY*
Bravais-Pearson-Korrelationskoeffizient
rXY 
s*XY
s*X sY*

i 1 ( xi  x )( yi  y )
n
n
2 1
2
1
(
x

x
)

(
y

y
)


i
i
n
n
i 1
i 1
1
n
n
Im Beispiel:
*
s

X  3, 40
9
*
sY *2  24
s
 1,63

Y
9
s X *2  104

rXY 
4,67
 0,84
3,4  1,63
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 42 -
(!) Satz:
Für den Bravais-Pearson-Korrelationskoeffizienten gilt:
(a)
-1 ≤ rXY ≤ 1.
(b)
rXY = 1 
yi = axi + b
mit a > 0 für alle i.
3
10,00

Y
8,00
Größter
positiver
linearer
Zusammenhang:
Alle Punkte
liegen auf einer
Geraden mit
positiver
Steigung.
6,00

4,00

2,00
1
0,00
0,00
2,00
4,00
6,00
8,00
10,00
X
(c)
rXY = -1 
10,00
yi = axi + b
mit a < 0 für alle i.
4

Y
8,00

6,00
4,00
2,00
0,00
0,00
Größter
negativer
linearer

Zusammenhang:
Alle Punkte liegen
auf einer Geraden mit
negativer Steigung.
2,00
4,00
6,00

1
8,00
10,00
X
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 43 -
 (!) Warnung 1:
 Vorsicht bei rXY  0 !!!
 Bedeutet rXY = 0, dass kein Zusammenhang besteht?
∑
xi
yi
xi ∙ yi

s *XY  15  0  0  55  0
-2
-1
0
1
2
0
2
0,5
0
0,5
2
5
-4
-0,5
0
0,5
4
0

rXY  s*XY ( s*X sY* )  0
Aber es existiert ein perfekter
funktionaler Zusammenhang:
yi  12 xi2
 Der Korrelationskoeffizient ist nur als Maß für den linearen
Zusammenhang geeignet!
 (!) Warnung 2:
 Korrelation bedeutet nicht notwendig Kausalität !!!
 Eine hohe (positive oder negative) Korrelation zwischen X
und Y kann mindestens folgende Ursachen haben:
 X

Y
 Y

X
 Z

X
( X ist Ursache für Y )
und
Z

Y
 Zufall
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 44 -
Optimale Kombination von Prognosen
Situation:
 Prognose des mittleren Dollarkurses in 6 Monaten:
Prognose
Volatilität
Commerzbank ( X )
0,60 € ( x )
*
0,05 € ( s X )
Deutsche Bank ( Y )
0,80 € ( y )
*
0,10 € ( sY )
 Aus vergangenen Prognosen bekannt:
rXY = – 0,25
 Gesucht:
Eine Kombination der beiden Prognosen,
und zwar derart, dass das Risiko (Volatilität) minimiert
wird.
 Naheliegend:
Betrachte ein gewogenes arithmetisches
Mittel der beiden Prognosen.
Der mittlere Dollarkurs ist dann
z  w1 x  w2 y .
Wähle die Gewichte w1 und w2 so,
dass sZ* ( bzw. sZ*2 ) minimal wird.
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 45 -
 Wesentlicher Nachteil:
 Der Bravais-Pearson-Korrelationskoeffizient ist nur für
metrisch skalierte Merkmale definiert.
 Allerdings ist ein Zusammenhang durchaus auch für ordinale
(oder nominale) Merkmale sinnvoll.
Beispiel:
 Merkmalsträger: 8 Angestellte
 Merkmal X :
Bildungsabschluss
 Merkmal Y :
Jahresgehalt (netto) in 1000 €
Angestellter
1
2
3
4
5
6
7
8
xi
Abi Haupt- Abi Fach- Haupt- Abi Univer- Mittlere
schule
hoch- schule
sität
Reife
schule
yi
25
22
27
30
26
40
45
35
 I.d.R. gilt:
Je höher der Abschluss, desto höher das Gehalt.
 Gesucht:
Maß für den Zusammenhang
 Problem:
Bravais-Pearson-Korrelationskoeffizient ist nicht
berechenbar.
 Ausweg:
Ersetze die Merkmalsausprägungen durch ihre
Ränge R(xi) bzw. R(yi) , und berechne den
Bravais-Pearson-Korrelationskoeffizienten mit
diesen Rängen ( Voraussetzung: Wenigstens
ordinales Niveau ).
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 46 -
Rangkorrelationskoeffizient nach Spearman
i 1 ( R( xi )  RX )( R( yi )  RY )
n
n
2
(
R
(
x
)

R
)

i 1 i X i 1 ( R( yi )  RY )2
n
rS , XY 
Angestellter
1
2
3
4
5
6
xi
A
HS
A
FH
HS
A
Uni M.R.
R(xi)
yi
R(yi)
4
25
7
7,5
22
8
4
27
5
2
30
4
7,5
26
6
4
40
2
1
45
1
Lösung:
7
8
6
35
3
rS,XY = 0,638
(!) Satz (Spezialfall):
 Falls bei X und Y jeweils alle Ränge verschieden sind, dann
gilt:
6  i 1 ( R ( xi )  R( yi )) 2
n
rS , XY  1 
(n  1)  n  (n  1)
6. Zusammenhangsmaße (Kovarianz und Korrelation) - 47 -
Herunterladen