7.8 Kovarianz und Korrelation

7.8
Kovarianz und Korrelation
(7.8.1)
E(X + Y ) = E(X) + E(Y )
Satz 7.8.1: V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y )
Cov(X, Y ) := E(X · Y ) − E(X) · E(Y ) heißt die Kovarianz von X und Y .
Satz 7.8.2: Für X, Y aus Def. 7.7.2 gilt:
E(X · Y ) =
Satz 7.8.3: X, Y unabhängig
⇒
6
⇐
m
n P
P
(
xi yi pi,j )
i=0 j=0
Cov(X, Y ) = 0
ZV X, Y mit Cov(X, Y )=0 heißen unkorreliert
Satz 7.8.4: Die ZV X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert µ und die gleiche
Varianz σ 2 besitzen. Dann gilt:
a) E(X1 + X2 + . . . + Xn ) = n · µ
b) Im Fall der Unabhängigkeit der ZV: V (X1 + X2 + . . . + Xn ) = n · σ 2
Def. 7.8.1: Es seien X und Y zwei beliebige ZV mit V (X), V (Y ) > 0. Dann heißt
√ )
̺(X, Y ) := √ Cov(X,Y
V (X)
V (Y )
der Korrelationskoeffizient von X und Y .
(Maß für den linearen Zusammenhang von X und Y )
Satz 7.8.5: X, Y seien ZV aus Def. 7.8.1. Dann gilt:
a) |̺(X, Y )| ≤ 1; dabei nennt man X und Y

unkorreliert,





 schwach korreliert,
stark korreliert,



positiv korreliert,



negativ korreliert,
falls
falls
falls
falls
falls
̺(X, Y ) = 0 ist, (vgl. o.)
|̺(X, Y )| nahe bei 0 aber > 0 ist,
|̺(X, Y )| nahe bei 1 ist,
̺(X, Y ) > 0 ist,
̺(X, Y ) < 0 ist
b) ̺(X, Y ) = +1 (bzw. -1) ⇐⇒ Y = a + bX (fast sicher) für geeignete Konstante a ∈ IR und
b > 0 (bzw. b < 0)
Fasst man die Messwertpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) als Realisation von einem Paar (X, Y )
von ZV auf, so ist (vergl. (6.1.6))
b1 · b2 =
(xy − x · y)2
,
(x2 − x2 )(y 2 − y 2 )
wobei b1 (b2 ) die Steigung der ersten (zweiten) Regressionsgerade ist, ein Schätzwert für (̺(X, Y ))2 .
Damit wäre folgender Ausdruck ein Schätzwert für ̺(X, Y ):
(7.8.2)
̺ˆ = √
xy−x·y
√
x2 −x2
y 2 −y 2
Es gilt also: Beide Regressionsgeraden sind gleich ⇔ b2 = 1/b1 ⇔ |ˆ
̺| = 1.
Außerdem gilt analog zu Satz 7.8.5b) nach (6.1.6):
(7.8.3)
|ˆ
̺| = 1 ⇔ b1 · b2 = 1 ⇔ Alle Punkte (xi , yi ) liegen (exakt) auf einer Geraden.
57
Allgemein gilt:
(7.8.4)
|ˆ
̺| ≤ 1.
Zur Bedeutung von ̺:
q
x2 − x 2
xy − x · y
q
̺ˆ = q
q
=
·
= b1 ·
x2 − x2
y2 − y2
x2 − x 2 y 2 − y 2
xy − x · y
Ist also
̺(X, Y ) :=
Cov(X, Y )
σ(X) · σ(Y )
s
V ar(xi )
V ar(yi )
> 0 (< 0),
so sind bei größeren Messergebnissen xi bei der Messgröße X entsprechend größere (kleinere)
Messergebnisse yi bei der Messgröße Y zu erwarten, und zwar umso stärker, je größer |̺| ist.
7.9
Gesetz der großen Zahl
Def. 7.9.1: Eine unendliche Folge von ZV X1 , X2 , . . . , heißen eine Folge unabhängiger ZV,
wenn je endlich viele der ZV unabhängig sind.
Satz 7.9.1 (Tschebyscheff-Ungleichung):
P (|X − E(X)| ≥ t σ(X)) ≤
1
t2
Satz 7.9.2 (Folgerung): Unter den Voraussetzungen von Satz 7.8.4 b) gilt:
P (| X1 +X2n+...+Xn − µ| ≥ α) ≤
σ2
α2 n
(n ∈ IN,
α > 0)
Satz 7.9.3 (Starkes Gesetz der großen Zahl):
a) Es sei X1 , X2 , . . . eine Folge unabhängiger ZV, die alle die gleiche Verteilung, den gleichen
Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt:
X1 +X2 +...+Xn
n
→ µ für n → ∞ (fast sicher)
b) A ⊂ Ω sei ein Ereignis bei einem Zufallsexperiment, das beliebig oft wiederholt wird, und
P (A) sei eine Wahrscheinlichkeit. Dann gilt für die rel. Häufigkeiten (vgl. Def. 7.2.6)
hn (A) → P (A) für n → ∞ (fast sicher)
7.10
Zentraler Grenzwertsatz
Satz 7.10.1: Unter den Voraussetzungen von Satz 7.9.3 a) gilt:
P (a ≤
X1 + X2 + . . . + Xn − n · µ
√
≤ b) → Φ(b) − Φ(a) für n → ∞, d.h.
nσ
≈ Φ(b) − Φ(a) für ”große” n
Bem. : Häufige Anwendung von Satz 7.10.1: Annahme, dass eine unbekannte Verteilung durch
eine Normalverteilung angenähert werden kann. Diese Anmahme ist nicht immer gerechtfertigt.
58