Angewandte Multivariate Statistik

Werbung
Angewandte Multivariate Statistik
Angewandte Multivariate Statistik
Prof. Dr. Ostap Okhrin
Ostap Okhrin
1 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Ein kurzer Exkurs in die Matrxialgebra

a11 · · · a1p

.. 
=  ... . . .
. 
an1 · · · anp

A(n×p)
Ostap Okhrin
2 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Definition
Notation
Transposition
Summe
Differenz
Skalarprodukt
Produkt
Rang
Spur
Determinante
Inverse
Generalisierte Inverse (g-Inverse)
A>
A+B
A−B
c ·A
A·B
rank(A)
tr(A)
det(A) = |A|
A−1
A− : AA− A = A
Tabelle: Elementare Matrixoperationen.
Ostap Okhrin
3 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Name
Definition
Notation
Beispiel
Skalar
p=n=1
a
Spaltenvektor
p=1
a
Zeilenvektor
n=1
a>
Einsvektor
(1, . . . , 1)>
| {z }
1n
(0, . . . , 0)>
| {z }
0n
n=p
A(p × p)
3 1
3 1
3
1
1
0
0
2 0
0 2
n
Nullvektor
n
quadratische Matrix
Tabelle: Spezielle Matrizen und Vektoren.
Ostap Okhrin
4 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Name
Definition
Notation
Diagonalmatrix
aij = 0, i 6= j, n = p
diag(aii )
Einheitsmatrix
diag(1, . . . , 1)
| {z }
Ip
Einsmatrix
aij = 1, n = p
1n 1>
n
symmetrische Matrix
aij = aji
p
Elementare Operationen
Beispiel
1 0
0 2 1 0
0 1
1 1
1 1 1 2
2 3
Tabelle: Spezielle Matrizen und Vektoren.
Ostap Okhrin
5 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Name
Definition
Nullmatrix
aij = 0
obere Dreiecksmatrix
aij = 0, i < j
idempotente Matrix
A2 = A
Orthogonalmatrix
>
Elementare Operationen
Beispiel
0 0
 0 0 
1 2 4
 0 1 3 
0 0 1
>
A A = I = AA
√1
2
√1
2
1
2
1
2
1
2
1
2
√1
2
− √12
!
Tabelle: Spezielle Matrizen und Vektoren.
Ostap Okhrin
6 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Eigenschaften einer quadratischen Matrix
Für beliebige Matrizen A(n × n) und B(n × n) und ein Skalar c ist:
tr(A + B) = tr(A) + tr(B)
tr(cA) = c tr(A)
|cA| = c n |A|
tr(AB) = tr(BA)
|AB| = |BA|
|AB| = |A||B|
|A−1 | = |A|−1
Ostap Okhrin
7 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Eigenwerte and Eigenvektoren
quadratische Matrix A(n × n)
Eigenwert λ = Eval (A)
Eigenvektor γ = Evec(A)
Aγ = λγ
Mithilfe der Spektralzerlegung kann gezeigt werden, dass
|A| =
n
Y
λj
j=1
tr(A) =
n
X
λj
j=1
Ostap Okhrin
8 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Elementare Operationen
Zusammenfassung: Matrixalgebra
Die Determinante |A| ist ein Produkt der Eigenwerte von A.
Die Inverse einer Matrix A existiert, falls |A| =
6 0.
Die Spur tr(A) ist die Summe der Eigenwerte von A.
Die Summe der Spuren zweiter Matrix ist die Spur der Summe
dieser beiden Matrizen.
Die Spur tr(AB) entspricht tr(BA).
Der Rang rank(A) ist die maximale Anzahl linear unabhängiger
Zeilen (Spalten) von A.
Ostap Okhrin
9 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
Spektralzerlegung
Jede symmetrische Matrix A(p × p) kann zerlegt werden:
A = ΓΛΓ>
p
X
=
λj γj γj>
j=1
Λ = diag (λ1 , · · · , λp )
Γ = (γ1 , · · · , γp )
Ostap Okhrin
10 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Kovarianzmatrix
Σ=
1 ρ
ρ 1
Spektralzerlegung
Eigenwerte:
1−λ
ρ
ρ
1−λ
=0
λ1 = 1 + ρ, λ2 = 1 − ρ, Λ = diag(1 + ρ, 1 − ρ)
Eigenvektoren:
1 ρ
x1
x1
= (1 + ρ)
ρ 1
x2
x2
MVAspecdecomp
Ostap Okhrin
11 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
x1 + ρx2 = x1 + ρx1
ρx1 + x2 = x2 + ρx2
⇒ x1 = x2 .
√ 1√2
γ1 =
.
1 2
√ 1√2
.
γ2 =
−1 2
√ √
1√2
1√2
Γ = (γ1 , γ2 ) =
1 2 −1 2
Überprüfe: A = ΓΛΓ>
Ostap Okhrin
12 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
Eigenvektoren
Die Richtung des ersten Eigenvektors ist die Hauptrichtung der
Punktwolke. Der zweite Eigenvektor ist orthogonal zum ersten.
Die Richtung dieses Eigenvektors ist im Allgemeinen verschieden
von der Regressionsgeraden.
Ostap Okhrin
13 of 46
2
0
-2
original data (y2), rotated data (y2)
4
normal sample, n=150
-2
0
2
original data (x1), rotated data (x1)
Punktdiagramm der beobachteten Daten (◦) (Stichprobenumfang
n = 150) und dieselben Daten (N) dargestellt im Koordinatensystem
(Basis) der Eigenvektoren der Kovarianzmatrix.
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
Singulärwertzerlegung (SWZ)
A(n × p),
rank(A) = r
A = Γ Λ ∆>
1/2
1/2
Γ(n × r ), ∆(p × r ), Γ> Γ = ∆> ∆ = Ir und Λ = diag λ1 , . . . , λr
,
λj > 0.
λj = Eval (AT A)
Γ und ∆ setzt sich aus den korrespondierenden Eigenvektoren AA>
und A> A zusammen.
g-Inverse von A kann definiert werden durch A− = ∆Λ−1 ΓT .
AA− A = A
Ostap Okhrin
15 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
Zusammenfassung: Spektralzerlegung
Die Jordanzerlegung ist die Repräsentation einer symmetrischen
Matrix bezüglich ihrer Eigenwerte und -vektoren.
Die Eigenvektoren des größten Eigenwerts zeigen in die
„Hauprichtung“ der Datenwolke.
Die Jordanzerlegung erlaubt die einfache Berechnung der Potenz
einer Matrix A: Aα = ΓΛα Γ> .
A−1 = ΓΛ−1 Γ> , A1/2 = ΓΛ1/2 Γ> .
Ostap Okhrin
16 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Spektralzerlegung
Zusammenfassung: Spektralzerlegung
Die Singulärwertzerlegung ist eine Verallgemeinerung der
Jordanzerlegung für nicht-quadratische Matrizen.
Die Richtung des ersten Eigenvektors der Kovarianzmatrix einer
zweidimensionalen Punktwolke ist verschieden von ihrer
Regressionsgeraden.
Ostap Okhrin
17 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Quadratische Formen
Quadratische Formen
A(p × p) symmetrische Matrix kann geschrieben werden als
>
Q(x) = x Ax =
p X
p
X
aij xi xj
i=1 j=1
Definitheit
Q(x) > 0 für alle x 6= 0
Q(x) ≥ 0 für alle x =
6 0
positiv-definit (pd),
positiv-semidefinit (psd).
A ist positiv-definit (positiv-semidefinit), falls Q(x) = x > Ax
positiv-definit (positiv-semidefinit) ist.
Ostap Okhrin
18 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Quadratische Formen
Beispiel:
Q(x) = x > Ax = x12 + x22 , A = 10 01
Eigenwerte: λ1 = λ2 = 1 positiv-definit
Q(x) = (x1 − x2 )2 , A = −11 −11
Eigenwerte λ1 = 2, λ2 = 0 positiv-semidefinit
Q(x) = x12 − x22
Eigenwerte λ1 = 1, λ2 = −1 indefinit.
Ostap Okhrin
19 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Quadratische Formen
Theorem
Falls A symmetrisch ist und Q(x) = x > Ax die korrespondierende
quadratische Form ist, dann existiert eine Transformation
x 7→ Γ> x = y , so dass
x> A x =
p
X
λi yi2 ,
i=1
wobei λi die Eigenwerte von A sind.
Lemma
A > 0 ⇔ λi > 0,
A ≥ 0 ⇔ λi ≥ 0,
Ostap Okhrin
i = 1, . . . , p.
20 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Quadratische Formen
Theorem (Theorem 2.5)
Falls A und B symmetrisch sind und B > 0, dann ist das Maximum
>
gegeben durch den größten Eigenwert von B −1 A.
von xx >Ax
Bx
Allgemeiner ist
max
x
x > Ax
x > Ax
=
λ
≥
λ
≥
·
·
·
≥
λ
=
min
,
1
2
p
x x > Bx
x > Bx
wobei λ1 , . . . , λp die Eigenwerte von B −1 A bezeichnet. Der Vektor,
>
maximiert (minimiert), ist der Eigenvektor von B −1 A, der
der xx >Ax
Bx
zum größten (kleinsten) Eigenwert von B −1 A korrespondiert. Falls
x > Bx = 1, man bekommt
max x > Ax = λ1 ≥ λ2 ≥ · · · ≥ λp = min x > Ax
x
Ostap Okhrin
x
21 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Quadratische Formen
Zusammenfassung: Quadratische
Formen
Eine quadratische Form kann durch eine symmetrische,
quadratische Matrix A beschrieben werden.
Quadratische Formen können stets diagonalisiert werden.
Positive Definitheit einer quadratischen Form is äquivalent zur
Bestimmtheit der Eigenwerte der Matrix A.
Das Maximum und Minimum einer quadratischen Form unter
Nebenbedingungen kann in Form von Eigenwerten ausgedrückt
werden.
Ostap Okhrin
22 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Ableitungen
Ableitungen
f : Rp → R, (p × 1) Vektor x:
∂f (x)
Spaltenvektor der partiellen Ableitungen
∂x
∂f (x)
, j = 1, . . . , p
∂xj
∂f (x)
Zeilenvektor derselben partiellen Ableitungen
∂x >
∂f (x)
wird Gradient von f genannt.
∂x
Ostap Okhrin
23 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Ableitungen
Ableitungen zweiter Ordnung:
∂ 2 f (x)
∂x∂x >
(p × p) Hesse-Matrix der Ableitungen zweiter Ordnung
2
∂ f (x)
, i = 1, . . . , p, j = 1, . . . , p.
∂xi ∂xj
Eine nützliche Identität
A(p × p), x(p × 1) ∈ Rp , a(p × 1) and A = A>
∂x > a
∂a> x
=
=a
∂x
∂x
Ostap Okhrin
24 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Ableitungen
Beispiel:
f : Rp → R, f (x) = a> x
a = (1, 2)> , x = (x1 , x2 )>
∂(x1 + 2x2 )
∂a> x
=
= (1, 2)> = a
∂x
∂x
Ostap Okhrin
25 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Ableitungen
Ableitungen der quadratischen Form
∂x > Ax
= 2Ax
∂x
∂ 2 x > Ax
= 2A
∂x∂x >
Ostap Okhrin
26 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Ableitungen
Zusammenfassung: Ableitungen
∂f (x)
∂x wird Gradient genannt.
>
∂a> x
Gradient ∂x = ∂x∂x a entspricht a.
>
Ableitung der quadratischen Form ∂x∂xAx entspricht 2Ax.
Hesse-Matrix von f : Rp → R ist die Matrix (p × p) der
Der Spaltenvektor
Der
Die
Die
partiellen Ableitungen zweiter Ordnung
∂ 2 f (x)
∂xi ∂xj .
Die Hesse-Matrix der quadratischen Form x > Ax entspricht 2A.
Ostap Okhrin
27 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Blockmatrizen
A11 A12
A21 A22
Aij (ni × pj ), n1 + n2 = n und p1 + p2 = p
A11 + B11 A12 + B12
A+B =
A21 + B21 A22 + B22
>
>
B11 B21
>
B
=
>
>
B12
B22
> + A B>
>
>
A11 B11
12 12 A11 B21 + A12 B22
>
AB
=
> + A B>
>
>
A21 B11
22 12 A21 B21 + A22 B22
A(n × p), B(n × p), A =
Ostap Okhrin
28 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
A(p × p)ist nicht-singulär zerlegt, so dass A11 , A22 quadratische
Matrizen sind.
11
A
A12
−1
A =
A21 A22
, wobei


A11


 12
A

A21


 22
A
Ostap Okhrin
=
=
=
=
def
−1 = (A
−1
(A11 − A12 A−1
11·2 )
22 A21 )
−1
−1
−(A11·2 ) A12 A22
−1
−A−1
22 A21 (A11·2 )
−1
−1
A22 + A22 A21 (A11·2 )−1 A12 A−1
22
29 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Matrix A11 ist nicht-singulär
|A| = |A11 ||A22 − A21 A−1
11 A12 |
und A22 nicht-singulär
|A| = |A22 ||A11 − A12 A−1
22 A21 |
1 b>
B=
a A
→ |B| = |A − ab> | = |A||1 − b> A−1 a|
(A − ab> )−1 = A−1 +
Ostap Okhrin
A−1 ab> A−1
1 − b> A−1 a
30 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Zusammenfassung: Blockmatrizen
Für eine zerlegte Matrix A(n × p) =
B11 B12
B(n × p) =
gilt
B21 B22
A+B =
Ostap Okhrin
A11 A12
A21 A22
A11 + B11 A12 + B12
A21 + B21 A22 + B22
und
.
31 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Zusammenfassung: Blockmatrizen
Das Produkt AB > entspricht
> + A B>
>
>
A11 B11
12 12 A11 B21 + A12 B22
.
> + A B>
>
>
A21 B11
22 12 A21 B21 + A22 B22
Ostap Okhrin
32 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Zusammenfassung: Blockmatrizen
Für eine nicht-singuläre Matrix A sind A11 , A22 quadratische
Matrizen
11
A
A12
−1
A =
A21 A22

−1 def

A11 = (A11 − A12 A−1
= (A11·2 )−1

22 A21 )

 12
−1
−1
A
= −(A11·2 ) A12 A22
21
−1

A
= −A−1

22 A21 (A11·2 )

 22
−1
−1
A
= A22 + A22 A21 (A11·2 )−1 A12 A−1
22
Ostap Okhrin
33 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Blockmatrizen
Zusammenfassung: Blockmatrizen
1 b>
und für nicht-singuläre Matrix A ist
Für B =
a A
|B| = |A − ab> | = |A||1 − b> A−1 a|.
(A − ab> )−1 = A−1 +
Ostap Okhrin
A−1 ab > A−1
1−b > A−1 a
34 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Geometrische Aspekte
Abstandsfunktion d : R2p → R+
d 2 (x, y ) = (x − y )> A(x − y ),
A>0
A = Ip , Euklidischer Abstand
Ed = {x ∈ Rp | (x − x0 )> (x − x0 ) = d 2 }
Beispiel: x ∈ R2 , x0 = 0, x12 + x22 = 1
Norm eines Vektor bezüglich der Metrik Ip
√
kxkIp = d (0, x) = x > x
Ostap Okhrin
35 of 46
Abstand d . d 2 (x, y ) = (x − y )> (x − y )
Kreis. A = I2 , (x1 − x01 )2 + (x2 − x02 )2 = d 2
Ellipsoid. Ed = {x : (x − x0 )> A(x − x0 ) = d 2 }, γj = Evec(A), A > 0
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Winkel zwischen Vektoren
Skalarprodukt
< x, y > = x > y
< x, y >A = x > Ay
Norm eines Vektors
√
kxkIp
kxkA
= d (0, x) =
√
=
x > Ax
x >x
Einheitsvektor
{x : kxk = 1}
Ostap Okhrin
39 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Winkel zwischen Vektoren
Der Winkel zwischen den Vektoren x und y berechnet sich über:
cos θ =
x >y
kxk ky k
Beispiel: Winkel = Korrelation
Beobachtungen {xi }ni=1 , {yi }ni=1
x =y =0
P
rXY = qP
xi yi
= cos θ
P
xi2 yi2
Korrelation korrespondiert zu dem Winkel zwischen x, y ∈ Rn .
Ostap Okhrin
40 of 46
Winkel zwischen den Vektoren.
x >y
x1 y1 + x2 y2
cos θ =
=
= cos θ1 cos θ2 + sin θ1 sin θ2
kxkky k
kxkky k
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Spaltenraum
X (n × p) Datenmatrix
C (X ) = {x ∈ Rn | ∃a ∈ Rp so that X a = x}
Projektionsmatrix
P(n × n), P = P > = P 2 (P ist idempotent)
Sei b ∈ Rn , a = Pb ist die Projektion von b auf C (P)
Ostap Okhrin
42 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Projektion auf C (X )
X (n × p),
P = X (X > X )−1 X >
PX = X , P ist ein Projektor, PP = P.
Q = In − P, Q2 = Q
px =
y >x
y
ky k2
PX = X
QX = 0
Ostap Okhrin
43 of 46
Projektion. px = y (y > y )−1 y > x =
y >x
y
ky k2
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Zusammenfassung: Geometrische
Aspekte
Ein Abstand zwischen zwei p-dimensionalen Punkten x, y ist eine
quadratische Form (x − y )> A(x − y ) der Vektordifferenz (x − y ).
Ein Abstand definiert die Norm eines Vektors.
Iso-Abstandskurven eines Punktes x0 sind alle Punkte, die
denselben Abstand zu x0 haben. Iso-Abstandskurven sind
Ellipsoiden, deren Hauptachsen von den Richtungen der
Eigenvektoren bestimmt werden. Die halbe Längen der
Hauptachsen sind proportional zum Inversen der Wurzeln der
Eigenwerte von A.
Ostap Okhrin
45 of 46
Angewandte Multivariate Statistik
A Short Excursion into Matrix Algebra
Geometrische Aspekte
Zusammenfassung: Geometrische
Aspekte
Der Winkel zwischen zwei Vektoren x und y ist gegeben durch
>
cos θ = kxkxA Ay
ky kA bezüglich der Metrik A.
Für die Euklidische Distanz mit A = I ist die Korrelation
zwischen zwei zentrierten Datenvektoren x und y ist gegeben
durch den Cosinus des Winkels zwischen beiden Vektoren, d. h.
cos θ = rXY .
Die Projektion P = X (X > X )−1 X > ist die Projektion auf den
Spaltenraum C (X ) of X .
Die Projektion von x ∈ Rn auf y ∈ Rn ist gegeben durch
y >x
y.
px = ky
k2
Ostap Okhrin
46 of 46
Herunterladen