Vorlesung 9a Der Korrelationskoeffizient

Vorlesung 9a
Der Korrelationskoeffizient
1
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
2
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
σX und σY : die Standardabweichungen von X und Y
Hier sind 5 Zahlen
zur (teilweisen) Beschreibung der Verteilung
einer R × R-wertigen Zufallsvariablen
oder anders gesagt: eines zufälligen Paares (X, Y ):
µX und µY : die Erwartungswerte von X und Y
σX und σY : die Standardabweichungen von X und Y
κXY :
der Korrelationskoeffizient von X und Y .
Definition.
3
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
κ = κXY := √
Cov[X, Y ]
√
VarX VarY
Definition.
Für zwei Zufallsvariable X, Y
mit positiven, endlichen Varianzen sei
κ = κXY := √
Cov[X, Y ]
√
VarX VarY
der Korrelationskoeffizient von X und Y .
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
4
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
≤
q
q
E[(X − E[X])2] E[(Y − E[Y ])2],
Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b)
folgt mit U := X − E[X], V := Y − E[Y ]:
|E[(X − E[X])(Y − E[Y ])]|
≤
q
q
E[(X − E[X])2] E[(Y − E[Y ])2],
also:
−1 ≤ κXY ≤ 1.
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
5
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
Das analysieren wir genauer.
Wir werden sehen:
Grob gesprochen sagt κ2, um wieviel besser Y
durch eine affin lineare Funktion von X
vorhergesagt werden kann
als durch eine Konstante.
Das analysieren wir genauer.
Die “Güte der Vorhersage” bezieht sich auf einen kleinen
erwarteten quadratischen Fehler (mean sqare error).
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
6
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
Durch ihren Erwartungswert E[Y ] !
Durch welche Konstante wird die Zufallsvariable Y
(im Sinn des erwarteten quadratischen Fehlers)
am besten vorhergesagt?
Durch ihren Erwartungswert E[Y ] !
Denn:
E(Y − c)2 = E[(Y − EY + EY − c)2]
7
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
8
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
und hat den Minimalwert
E(Y − c)2 = E[(Y − EY + EY − c)2]
= E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2
= Var Y + 0 + (E[Y ] − c)2.
Das wird minimiert von
c = EY
und hat den Minimalwert
Var Y .
Durch welche affin lineare Funktion von X,
9
Durch welche affin lineare Funktion von X,
aX + b,
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Für welche Zahlen a, b wird
Durch welche affin lineare Funktion von X,
aX + b,
wird die Zufallsvariable Y (wieder im Sinn des
erwarteten quadratischen Fehlers) am besten vorhergesagt?
Genauer:
Für welche Zahlen a, b wird
E[(Y − aX − b)2] minimal?
Die Lösung ist:
10
Die Lösung ist:
σY
κXY
a :=
σX
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
M. a. W.: b so, dass der Punkt (µX , µY )
auf der Geraden y = ax + b liegt.
Die Lösung ist:
σY
κXY
a :=
σX
und b so, dass µY = aµX + b.
M. a. W.: b so, dass der Punkt (µX , µY )
auf der Geraden y = ax + b liegt.
Wir nennen diese Gerade
die Regressionsgerade für Y auf der Basis von X.
Wir begründen jetzt die Behauptung über a und b:
11
Wir begründen jetzt die Behauptung über a und b:
E[(Y − aX − b)2]
Wir begründen jetzt die Behauptung über a und b:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
12
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Der erste Summand ist gleich Var[Y − aX].
Wir begründen jetzt diese Behauptung. Dazu formen wir um:
E[(Y − aX − b)2]
= Var[Y − aX − b] + (E[Y ] − aE[X] − b)2
Der zweite Summand ist Null für b = EY − aEX.
Damit haben wir schon mal die eine Bedingung gefunden.
Der erste Summand ist gleich Var[Y − aX].
Für welches a wird das minimal?
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
13
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
14
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
σY
Cov[X, Y ]
κ.
=
a=
2
σX
σX
Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX
=
=
σY2
−
σY2
Cov[X, Y ]
2
+ a2σX
− 2aσX
σX
Cov[X, Y ]2
2
σX
+

2
Cov[X, Y ] 
X−
σX
aσ
Der rechte Summand wird Null für
Cov[X, Y ]
σY
a=
κ.
=
2
σX
σX
Der Minimalwert von Var[Y − aX] ist also σY2 (1 − κ2).
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
15
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Also ist der Anteil von Var Y = σY2 ,
der von den Vielfachen von X
zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich
Damit ist auch der Minimalwert von Var[Y − aX − b] gleich
σY2 (1 − κ2).
Der Minimalwert von Var[Y − c] war σY2 .
Also ist der Anteil von Var Y = σY2 ,
der von den Vielfachen von X
zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich
κ2σY2 .
Beispiel 1:
16
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
(Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.)
Beispiel 1:
(x1, y1), . . . , (xn, yn) seien n Punkte im R2.
Die gemeinsame Verteilung von (X, Y ) sei
n
1 X
ν̄ :=
δ(xi,yi).
n i=1
(Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.)
Vorstellung: ν̄ gibt jedem Punkt (xi, yi), i = 1, . . . , n,
1.
das Gewicht n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
17
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
2
σX
1X
=
(xi − x̄)2
n
n
1 X
δ(xi,yi). Dann ist
(X, Y ) hat Verteilung ν̄ =
n i=1
1X
xi =: x̄
EX =
n
2
σX
κ=
q
1X
=
(xi − x̄)2
n
(xi − x̄)(yi − ȳ)
P
q
2 P
(xi − x̄)
P
(yi
− ȳ)2
.
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
18
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
und b so, dass ax̄ + b = ȳ.
E[(Y − aX
− b)2]
n
1 X
(yi − axi − bi)2
=
n i=1
wird, wie wir gezeigt haben, minimiert durch
σY
κ=
a :=
σX
(xi − x̄)(yi − ȳ)
P
(xi − x̄)2
P
und b so, dass ax̄ + b = ȳ.
Diese Gerade y = ax + b heißt die
Regressionsgerade zu den Punkten (xi, yi), i = 1, . . . , n..
Beispiel 2:
19
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
κXY = ρ.
Beispiel 2:
Z1, Z2 seien unabhängig und standard-normalverteilt,
ρ ∈ [−1, 1].
X := Z1,
q
Y := ρZ1 + 1 − ρ2Z2.
2 = σ 2 = 1,
Dann gilt: σX
Y
κXY = ρ.
Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9)
zeigen jeweils die Realisierungen von
1000 unabhängige Kopien (Xi, Yi) von (X, Y ),
zusammen mit der
Regressionsgerade für Y auf der Basis von X (in schwarz)
Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9)
zeigen jeweils die Realisierungen von
1000 unabhängige Kopien (Xi, Yi) von (X, Y ),
zusammen mit der
Regressionsgerade für Y auf der Basis von X (in schwarz)
und der
Regressionsgerade für X auf der Basis von Y (in grau).
Korrelation = −0.9
Korrelation = −0.8
Korrelation = −0.7
Korrelation = −0.6
Korrelation = −0.5
Korrelation = −0.4
Korrelation = −0.3
Korrelation = −0.2
Korrelation = −0.1
Korrelation = 0
Korrelation = 0.2
Korrelation = 0.3
Korrelation = 0.4
Korrelation = 0.5
Korrelation = 0.6
Korrelation = 0.7
Korrelation = 0.8
Korrelation = 0.9

Zugehörige Unterlagen

Blatt 6 - Informatik 12

Textfeld Im Exit Event des Feldes ist ein Scriptobjektaufruf //Code

Übungsblatt Zufallsvektoren. j.g. - Wiwi Uni

WiSe 2012/2013 und SoSe 2013

Vorlesung 9a Der Korrelationskoeffizient

Zugehörige Unterlagen

Produkte

Unterstützung

Vorlesung 9a Der Korrelationskoeffizient

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können