Vorlesung 9a Der Korrelationskoeffizient

Werbung
Vorlesung 9a
Der Korrelationskoeffizient
1
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
2
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
σX und σY : die Standardabweichungen von X und Y
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
σX und σY : die Standardabweichungen von X und Y
κXY :
der Korrelationskoeffizient von X und Y .
Definition.
3
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
κ = κXY := √
Cov[X, Y ]
√
VarX VarY
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
κ = κXY := √
Cov[X, Y ]
√
VarX VarY
der Korrelationskoeffizient von X und Y .
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
4
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
≤
q
q
E[(X − E[X])2] E[(Y − E[Y ])2],
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
≤
q
q
E[(X − E[X])2] E[(Y − E[Y ])2],
also:
−1 ≤ κXY ≤ 1.
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
5
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
Das analysieren wir genauer.
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
Das analysieren wir genauer.
Die “Güte der Vorhersage” bezieht sich auf einen kleinen
erwarteten quadratischen Fehler (mean sqare error).
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
6
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
Durch ihren Erwartungswert E[Y ] !
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
Durch ihren Erwartungswert E[Y ] !
Denn:
E(Y − c)2 = E[(Y − EY + EY − c)2]
7
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
8
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
und hat den Minimalwert
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
und hat den Minimalwert
Var Y .
Durch welche affin lineare Funktion von X,
9
Durch welche affin lineare Funktion von X,
aX + b,
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Für welche Zahlen a, b wird
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Für welche Zahlen a, b wird
E[(Y − aX − b)2] minimal?
Die Lösung ist:
10
Die Lösung ist:
σY
κXY
a :=
σX
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
M. a. W.: b so, dass der Punkt (µX , µY )
auf der Geraden y = ax + b liegt.
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
M. a. W.: b so, dass der Punkt (µX , µY )
auf der Geraden y = ax + b liegt.
Wir nennen diese Gerade
die Regressionsgerade für Y auf der Basis von X.
Wir begründen jetzt die Behauptung über a und b:
11
Wir begründen jetzt die Behauptung über a und b:
E[(Y − aX − b)2]
Wir begründen jetzt die Behauptung über a und b:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
12
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Der erste Summand ist gleich Var[Y − aX].
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Der erste Summand ist gleich Var[Y − aX].
Für welches a wird das minimal?
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
13
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
14
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
σY
Cov[X, Y ]
κ.
=
a=
2
σX
σX
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
Cov[X, Y ]
σY
a=
κ.
=
2
σX
σX
Der Minimalwert von Var[Y − aX] ist also σY2 (1 − κ2).
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
15
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Also ist der Anteil von Var Y = σY2 ,
der von den Vielfachen von X
zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Also ist der Anteil von Var Y = σY2 ,
der von den Vielfachen von X
zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich
κ2σY2 .
Beispiel 1:
16
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
(Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.)
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
(Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.)
Vorstellung: ν̄ gibt jedem Punkt (xi, yi), i = 1, . . . , n,
1.
das Gewicht n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
17
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
2
σX
1X
=
(xi − x̄)2
n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
2
σX
κ=
q
1X
=
(xi − x̄)2
n
(xi − x̄)(yi − ȳ)
P
q
2 P
(xi − x̄)
P
(yi
− ȳ)2
.
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
18
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
und b so, dass ax̄ + b = ȳ.
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
und b so, dass ax̄ + b = ȳ.
Diese Gerade y = ax + b heißt die
Regressionsgerade zu den Punkten (xi, yi), i = 1, . . . , n..
Beispiel 2:
19
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
κXY = ρ.
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
κXY = ρ.
Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9)
zeigen jeweils die Realisierungen von
1000 unabhängige Kopien (Xi, Yi) von (X, Y ),
zusammen mit der
Regressionsgerade für Y auf der Basis von X (in schwarz)
Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9)
zeigen jeweils die Realisierungen von
1000 unabhängige Kopien (Xi, Yi) von (X, Y ),
zusammen mit der
Regressionsgerade für Y auf der Basis von X (in schwarz)
und der
Regressionsgerade für X auf der Basis von Y (in grau).
Korrelation = −0.9
Korrelation = −0.8
Korrelation = −0.7
Korrelation = −0.6
Korrelation = −0.5
Korrelation = −0.4
Korrelation = −0.3
Korrelation = −0.2
Korrelation = −0.1
Korrelation = 0
Korrelation = 0.2
Korrelation = 0.3
Korrelation = 0.4
Korrelation = 0.5
Korrelation = 0.6
Korrelation = 0.7
Korrelation = 0.8
Korrelation = 0.9
Herunterladen