Vorlesung 9a Der Korrelationskoeffizient 1 Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung 2 Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung einer R × R-wertigen Zufallsvariablen Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung einer R × R-wertigen Zufallsvariablen oder anders gesagt: eines zufälligen Paares (X, Y ): Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung einer R × R-wertigen Zufallsvariablen oder anders gesagt: eines zufälligen Paares (X, Y ): µX und µY : die Erwartungswerte von X und Y Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung einer R × R-wertigen Zufallsvariablen oder anders gesagt: eines zufälligen Paares (X, Y ): µX und µY : die Erwartungswerte von X und Y σX und σY : die Standardabweichungen von X und Y Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung einer R × R-wertigen Zufallsvariablen oder anders gesagt: eines zufälligen Paares (X, Y ): µX und µY : die Erwartungswerte von X und Y σX und σY : die Standardabweichungen von X und Y κXY : der Korrelationskoeffizient von X und Y . Definition. 3 Definition. Für zwei Zufallsvariable X, Y mit positiven, endlichen Varianzen sei Definition. Für zwei Zufallsvariable X, Y mit positiven, endlichen Varianzen sei κ = κXY := √ Cov[X, Y ] √ VarX VarY Definition. Für zwei Zufallsvariable X, Y mit positiven, endlichen Varianzen sei κ = κXY := √ Cov[X, Y ] √ VarX VarY der Korrelationskoeffizient von X und Y . Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b) folgt mit U := X − E[X], V := Y − E[Y ]: 4 Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b) folgt mit U := X − E[X], V := Y − E[Y ]: |E[(X − E[X])(Y − E[Y ])]| Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b) folgt mit U := X − E[X], V := Y − E[Y ]: |E[(X − E[X])(Y − E[Y ])]| ≤ q q E[(X − E[X])2] E[(Y − E[Y ])2], Aus der Cauchy-Schwarz-Ungleichung (s. Ende von VL 7b) folgt mit U := X − E[X], V := Y − E[Y ]: |E[(X − E[X])(Y − E[Y ])]| ≤ q q E[(X − E[X])2] E[(Y − E[Y ])2], also: −1 ≤ κXY ≤ 1. Wir werden sehen: Grob gesprochen sagt κ2, um wieviel besser Y durch eine affin lineare Funktion von X vorhergesagt werden kann als durch eine Konstante. 5 Wir werden sehen: Grob gesprochen sagt κ2, um wieviel besser Y durch eine affin lineare Funktion von X vorhergesagt werden kann als durch eine Konstante. Das analysieren wir genauer. Wir werden sehen: Grob gesprochen sagt κ2, um wieviel besser Y durch eine affin lineare Funktion von X vorhergesagt werden kann als durch eine Konstante. Das analysieren wir genauer. Die “Güte der Vorhersage” bezieht sich auf einen kleinen erwarteten quadratischen Fehler (mean sqare error). Durch welche Konstante wird die Zufallsvariable Y (im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? 6 Durch welche Konstante wird die Zufallsvariable Y (im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Durch ihren Erwartungswert E[Y ] ! Durch welche Konstante wird die Zufallsvariable Y (im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Durch ihren Erwartungswert E[Y ] ! Denn: E(Y − c)2 = E[(Y − EY + EY − c)2] 7 E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. 8 E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. Das wird minimiert von E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. Das wird minimiert von c = EY E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. Das wird minimiert von c = EY und hat den Minimalwert E(Y − c)2 = E[(Y − EY + EY − c)2] = E[(Y − EY )2] + 2E[(Y − E[Y ])(EY − c)] + (E[Y ] − c)2 = Var Y + 0 + (E[Y ] − c)2. Das wird minimiert von c = EY und hat den Minimalwert Var Y . Durch welche affin lineare Funktion von X, 9 Durch welche affin lineare Funktion von X, aX + b, Durch welche affin lineare Funktion von X, aX + b, wird die Zufallsvariable Y (wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Durch welche affin lineare Funktion von X, aX + b, wird die Zufallsvariable Y (wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Genauer: Durch welche affin lineare Funktion von X, aX + b, wird die Zufallsvariable Y (wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Genauer: Für welche Zahlen a, b wird Durch welche affin lineare Funktion von X, aX + b, wird die Zufallsvariable Y (wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Genauer: Für welche Zahlen a, b wird E[(Y − aX − b)2] minimal? Die Lösung ist: 10 Die Lösung ist: σY κXY a := σX Die Lösung ist: σY κXY a := σX und b so, dass µY = aµX + b. Die Lösung ist: σY κXY a := σX und b so, dass µY = aµX + b. M. a. W.: b so, dass der Punkt (µX , µY ) auf der Geraden y = ax + b liegt. Die Lösung ist: σY κXY a := σX und b so, dass µY = aµX + b. M. a. W.: b so, dass der Punkt (µX , µY ) auf der Geraden y = ax + b liegt. Wir nennen diese Gerade die Regressionsgerade für Y auf der Basis von X. Wir begründen jetzt die Behauptung über a und b: 11 Wir begründen jetzt die Behauptung über a und b: E[(Y − aX − b)2] Wir begründen jetzt die Behauptung über a und b: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 Wir begründen jetzt diese Behauptung. Dazu formen wir um: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 12 Wir begründen jetzt diese Behauptung. Dazu formen wir um: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 Der zweite Summand ist Null für b = EY − aEX. Wir begründen jetzt diese Behauptung. Dazu formen wir um: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 Der zweite Summand ist Null für b = EY − aEX. Damit haben wir schon mal die eine Bedingung gefunden. Wir begründen jetzt diese Behauptung. Dazu formen wir um: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 Der zweite Summand ist Null für b = EY − aEX. Damit haben wir schon mal die eine Bedingung gefunden. Der erste Summand ist gleich Var[Y − aX]. Wir begründen jetzt diese Behauptung. Dazu formen wir um: E[(Y − aX − b)2] = Var[Y − aX − b] + (E[Y ] − aE[X] − b)2 Der zweite Summand ist Null für b = EY − aEX. Damit haben wir schon mal die eine Bedingung gefunden. Der erste Summand ist gleich Var[Y − aX]. Für welches a wird das minimal? Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX 13 Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = = σY2 − σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Cov[X, Y ]2 2 σX + 2 Cov[X, Y ] X− σX aσ Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = = σY2 − σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Cov[X, Y ]2 2 σX + 2 Cov[X, Y ] X− σX aσ 14 Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = = σY2 − σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Cov[X, Y ]2 2 σX + 2 Cov[X, Y ] X− σX aσ Der rechte Summand wird Null für Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = = σY2 − σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Cov[X, Y ]2 2 σX + 2 Cov[X, Y ] X− σX aσ Der rechte Summand wird Null für σY Cov[X, Y ] κ. = a= 2 σX σX Var[Y − aX] = VarY − 2aCov[X, Y ] + a2VarX = = σY2 − σY2 Cov[X, Y ] 2 + a2σX − 2aσX σX Cov[X, Y ]2 2 σX + 2 Cov[X, Y ] X− σX aσ Der rechte Summand wird Null für Cov[X, Y ] σY a= κ. = 2 σX σX Der Minimalwert von Var[Y − aX] ist also σY2 (1 − κ2). Damit ist auch der Minimalwert von Var[Y − aX − b] gleich σY2 (1 − κ2). 15 Damit ist auch der Minimalwert von Var[Y − aX − b] gleich σY2 (1 − κ2). Der Minimalwert von Var[Y − c] war σY2 . Damit ist auch der Minimalwert von Var[Y − aX − b] gleich σY2 (1 − κ2). Der Minimalwert von Var[Y − c] war σY2 . Also ist der Anteil von Var Y = σY2 , der von den Vielfachen von X zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich Damit ist auch der Minimalwert von Var[Y − aX − b] gleich σY2 (1 − κ2). Der Minimalwert von Var[Y − c] war σY2 . Also ist der Anteil von Var Y = σY2 , der von den Vielfachen von X zusätzlich zu den Vielfachen von 1 “erklärt” wird, gleich κ2σY2 . Beispiel 1: 16 Beispiel 1: (x1, y1), . . . , (xn, yn) seien n Punkte im R2. Beispiel 1: (x1, y1), . . . , (xn, yn) seien n Punkte im R2. Die gemeinsame Verteilung von (X, Y ) sei Beispiel 1: (x1, y1), . . . , (xn, yn) seien n Punkte im R2. Die gemeinsame Verteilung von (X, Y ) sei n 1 X ν̄ := δ(xi,yi). n i=1 Beispiel 1: (x1, y1), . . . , (xn, yn) seien n Punkte im R2. Die gemeinsame Verteilung von (X, Y ) sei n 1 X ν̄ := δ(xi,yi). n i=1 (Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.) Beispiel 1: (x1, y1), . . . , (xn, yn) seien n Punkte im R2. Die gemeinsame Verteilung von (X, Y ) sei n 1 X ν̄ := δ(xi,yi). n i=1 (Dabei ist δz (B) := 1 für z ∈ B, und := 0 für z 6= B.) Vorstellung: ν̄ gibt jedem Punkt (xi, yi), i = 1, . . . , n, 1. das Gewicht n n 1 X δ(xi,yi). Dann ist (X, Y ) hat Verteilung ν̄ = n i=1 17 n 1 X δ(xi,yi). Dann ist (X, Y ) hat Verteilung ν̄ = n i=1 1X xi =: x̄ EX = n n 1 X δ(xi,yi). Dann ist (X, Y ) hat Verteilung ν̄ = n i=1 1X xi =: x̄ EX = n 2 σX 1X = (xi − x̄)2 n n 1 X δ(xi,yi). Dann ist (X, Y ) hat Verteilung ν̄ = n i=1 1X xi =: x̄ EX = n 2 σX κ= q 1X = (xi − x̄)2 n (xi − x̄)(yi − ȳ) P q 2 P (xi − x̄) P (yi − ȳ)2 . E[(Y − aX − b)2] n 1 X (yi − axi − bi)2 = n i=1 18 E[(Y − aX − b)2] n 1 X (yi − axi − bi)2 = n i=1 wird, wie wir gezeigt haben, minimiert durch E[(Y − aX − b)2] n 1 X (yi − axi − bi)2 = n i=1 wird, wie wir gezeigt haben, minimiert durch σY κ= a := σX (xi − x̄)(yi − ȳ) P (xi − x̄)2 P E[(Y − aX − b)2] n 1 X (yi − axi − bi)2 = n i=1 wird, wie wir gezeigt haben, minimiert durch σY κ= a := σX (xi − x̄)(yi − ȳ) P (xi − x̄)2 P und b so, dass ax̄ + b = ȳ. E[(Y − aX − b)2] n 1 X (yi − axi − bi)2 = n i=1 wird, wie wir gezeigt haben, minimiert durch σY κ= a := σX (xi − x̄)(yi − ȳ) P (xi − x̄)2 P und b so, dass ax̄ + b = ȳ. Diese Gerade y = ax + b heißt die Regressionsgerade zu den Punkten (xi, yi), i = 1, . . . , n.. Beispiel 2: 19 Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, ρ ∈ [−1, 1]. Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, ρ ∈ [−1, 1]. X := Z1, q Y := ρZ1 + 1 − ρ2Z2. Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, ρ ∈ [−1, 1]. X := Z1, q Y := ρZ1 + 1 − ρ2Z2. 2 = σ 2 = 1, Dann gilt: σX Y Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, ρ ∈ [−1, 1]. X := Z1, q Y := ρZ1 + 1 − ρ2Z2. 2 = σ 2 = 1, Dann gilt: σX Y κXY = ρ. Beispiel 2: Z1, Z2 seien unabhängig und standard-normalverteilt, ρ ∈ [−1, 1]. X := Z1, q Y := ρZ1 + 1 − ρ2Z2. 2 = σ 2 = 1, Dann gilt: σX Y κXY = ρ. Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9) zeigen jeweils die Realisierungen von 1000 unabhängige Kopien (Xi, Yi) von (X, Y ), zusammen mit der Regressionsgerade für Y auf der Basis von X (in schwarz) Die folgenden Bilder (ρ = −0.9, −0.8, . . . , 0.8, 0.9) zeigen jeweils die Realisierungen von 1000 unabhängige Kopien (Xi, Yi) von (X, Y ), zusammen mit der Regressionsgerade für Y auf der Basis von X (in schwarz) und der Regressionsgerade für X auf der Basis von Y (in grau). Korrelation = −0.9 Korrelation = −0.8 Korrelation = −0.7 Korrelation = −0.6 Korrelation = −0.5 Korrelation = −0.4 Korrelation = −0.3 Korrelation = −0.2 Korrelation = −0.1 Korrelation = 0 Korrelation = 0.2 Korrelation = 0.3 Korrelation = 0.4 Korrelation = 0.5 Korrelation = 0.6 Korrelation = 0.7 Korrelation = 0.8 Korrelation = 0.9