Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Ein kurzer Exkurs in die Matrxialgebra a11 · · · a1p .. = ... . . . . an1 · · · anp A(n×p) Ostap Okhrin 2 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Definition Notation Transposition Summe Differenz Skalarprodukt Produkt Rang Spur Determinante Inverse Generalisierte Inverse (g-Inverse) A> A+B A−B c ·A A·B rank(A) tr(A) det(A) = |A| A−1 A− : AA− A = A Tabelle: Elementare Matrixoperationen. Ostap Okhrin 3 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Name Definition Notation Beispiel Skalar p=n=1 a Spaltenvektor p=1 a Zeilenvektor n=1 a> Einsvektor (1, . . . , 1)> | {z } 1n (0, . . . , 0)> | {z } 0n n=p A(p × p) 3 1 3 1 3 1 1 0 0 2 0 0 2 n Nullvektor n quadratische Matrix Tabelle: Spezielle Matrizen und Vektoren. Ostap Okhrin 4 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Name Definition Notation Diagonalmatrix aij = 0, i 6= j, n = p diag(aii ) Einheitsmatrix diag(1, . . . , 1) | {z } Ip Einsmatrix aij = 1, n = p 1n 1> n symmetrische Matrix aij = aji p Elementare Operationen Beispiel 1 0 0 2 1 0 0 1 1 1 1 1 1 2 2 3 Tabelle: Spezielle Matrizen und Vektoren. Ostap Okhrin 5 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Name Definition Nullmatrix aij = 0 obere Dreiecksmatrix aij = 0, i < j idempotente Matrix A2 = A Orthogonalmatrix > Elementare Operationen Beispiel 0 0 0 0 1 2 4 0 1 3 0 0 1 > A A = I = AA √1 2 √1 2 1 2 1 2 1 2 1 2 √1 2 − √12 ! Tabelle: Spezielle Matrizen und Vektoren. Ostap Okhrin 6 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Eigenschaften einer quadratischen Matrix Für beliebige Matrizen A(n × n) und B(n × n) und ein Skalar c ist: tr(A + B) = tr(A) + tr(B) tr(cA) = c tr(A) |cA| = c n |A| tr(AB) = tr(BA) |AB| = |BA| |AB| = |A||B| |A−1 | = |A|−1 Ostap Okhrin 7 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Eigenwerte and Eigenvektoren quadratische Matrix A(n × n) Eigenwert λ = Eval (A) Eigenvektor γ = Evec(A) Aγ = λγ Mithilfe der Spektralzerlegung kann gezeigt werden, dass |A| = n Y λj j=1 tr(A) = n X λj j=1 Ostap Okhrin 8 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen Zusammenfassung: Matrixalgebra Die Determinante |A| ist ein Produkt der Eigenwerte von A. Die Inverse einer Matrix A existiert, falls |A| = 6 0. Die Spur tr(A) ist die Summe der Eigenwerte von A. Die Summe der Spuren zweiter Matrix ist die Spur der Summe dieser beiden Matrizen. Die Spur tr(AB) entspricht tr(BA). Der Rang rank(A) ist die maximale Anzahl linear unabhängiger Zeilen (Spalten) von A. Ostap Okhrin 9 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung Spektralzerlegung Jede symmetrische Matrix A(p × p) kann zerlegt werden: A = ΓΛΓ> p X = λj γj γj> j=1 Λ = diag (λ1 , · · · , λp ) Γ = (γ1 , · · · , γp ) Ostap Okhrin 10 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Kovarianzmatrix Σ= 1 ρ ρ 1 Spektralzerlegung Eigenwerte: 1−λ ρ ρ 1−λ =0 λ1 = 1 + ρ, λ2 = 1 − ρ, Λ = diag(1 + ρ, 1 − ρ) Eigenvektoren: 1 ρ x1 x1 = (1 + ρ) ρ 1 x2 x2 MVAspecdecomp Ostap Okhrin 11 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung x1 + ρx2 = x1 + ρx1 ρx1 + x2 = x2 + ρx2 ⇒ x1 = x2 . √ 1√2 γ1 = . 1 2 √ 1√2 . γ2 = −1 2 √ √ 1√2 1√2 Γ = (γ1 , γ2 ) = 1 2 −1 2 Überprüfe: A = ΓΛΓ> Ostap Okhrin 12 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung Eigenvektoren Die Richtung des ersten Eigenvektors ist die Hauptrichtung der Punktwolke. Der zweite Eigenvektor ist orthogonal zum ersten. Die Richtung dieses Eigenvektors ist im Allgemeinen verschieden von der Regressionsgeraden. Ostap Okhrin 13 of 46 2 0 -2 original data (y2), rotated data (y2) 4 normal sample, n=150 -2 0 2 original data (x1), rotated data (x1) Punktdiagramm der beobachteten Daten (◦) (Stichprobenumfang n = 150) und dieselben Daten (N) dargestellt im Koordinatensystem (Basis) der Eigenvektoren der Kovarianzmatrix. Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung Singulärwertzerlegung (SWZ) A(n × p), rank(A) = r A = Γ Λ ∆> 1/2 1/2 Γ(n × r ), ∆(p × r ), Γ> Γ = ∆> ∆ = Ir und Λ = diag λ1 , . . . , λr , λj > 0. λj = Eval (AT A) Γ und ∆ setzt sich aus den korrespondierenden Eigenvektoren AA> und A> A zusammen. g-Inverse von A kann definiert werden durch A− = ∆Λ−1 ΓT . AA− A = A Ostap Okhrin 15 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung Zusammenfassung: Spektralzerlegung Die Jordanzerlegung ist die Repräsentation einer symmetrischen Matrix bezüglich ihrer Eigenwerte und -vektoren. Die Eigenvektoren des größten Eigenwerts zeigen in die „Hauprichtung“ der Datenwolke. Die Jordanzerlegung erlaubt die einfache Berechnung der Potenz einer Matrix A: Aα = ΓΛα Γ> . A−1 = ΓΛ−1 Γ> , A1/2 = ΓΛ1/2 Γ> . Ostap Okhrin 16 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Spektralzerlegung Zusammenfassung: Spektralzerlegung Die Singulärwertzerlegung ist eine Verallgemeinerung der Jordanzerlegung für nicht-quadratische Matrizen. Die Richtung des ersten Eigenvektors der Kovarianzmatrix einer zweidimensionalen Punktwolke ist verschieden von ihrer Regressionsgeraden. Ostap Okhrin 17 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Quadratische Formen Quadratische Formen A(p × p) symmetrische Matrix kann geschrieben werden als > Q(x) = x Ax = p X p X aij xi xj i=1 j=1 Definitheit Q(x) > 0 für alle x 6= 0 Q(x) ≥ 0 für alle x = 6 0 positiv-definit (pd), positiv-semidefinit (psd). A ist positiv-definit (positiv-semidefinit), falls Q(x) = x > Ax positiv-definit (positiv-semidefinit) ist. Ostap Okhrin 18 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Quadratische Formen Beispiel: Q(x) = x > Ax = x12 + x22 , A = 10 01 Eigenwerte: λ1 = λ2 = 1 positiv-definit Q(x) = (x1 − x2 )2 , A = −11 −11 Eigenwerte λ1 = 2, λ2 = 0 positiv-semidefinit Q(x) = x12 − x22 Eigenwerte λ1 = 1, λ2 = −1 indefinit. Ostap Okhrin 19 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Quadratische Formen Theorem Falls A symmetrisch ist und Q(x) = x > Ax die korrespondierende quadratische Form ist, dann existiert eine Transformation x 7→ Γ> x = y , so dass x> A x = p X λi yi2 , i=1 wobei λi die Eigenwerte von A sind. Lemma A > 0 ⇔ λi > 0, A ≥ 0 ⇔ λi ≥ 0, Ostap Okhrin i = 1, . . . , p. 20 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Quadratische Formen Theorem (Theorem 2.5) Falls A und B symmetrisch sind und B > 0, dann ist das Maximum > gegeben durch den größten Eigenwert von B −1 A. von xx >Ax Bx Allgemeiner ist max x x > Ax x > Ax = λ ≥ λ ≥ · · · ≥ λ = min , 1 2 p x x > Bx x > Bx wobei λ1 , . . . , λp die Eigenwerte von B −1 A bezeichnet. Der Vektor, > maximiert (minimiert), ist der Eigenvektor von B −1 A, der der xx >Ax Bx zum größten (kleinsten) Eigenwert von B −1 A korrespondiert. Falls x > Bx = 1, man bekommt max x > Ax = λ1 ≥ λ2 ≥ · · · ≥ λp = min x > Ax x Ostap Okhrin x 21 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Quadratische Formen Zusammenfassung: Quadratische Formen Eine quadratische Form kann durch eine symmetrische, quadratische Matrix A beschrieben werden. Quadratische Formen können stets diagonalisiert werden. Positive Definitheit einer quadratischen Form is äquivalent zur Bestimmtheit der Eigenwerte der Matrix A. Das Maximum und Minimum einer quadratischen Form unter Nebenbedingungen kann in Form von Eigenwerten ausgedrückt werden. Ostap Okhrin 22 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Ableitungen Ableitungen f : Rp → R, (p × 1) Vektor x: ∂f (x) Spaltenvektor der partiellen Ableitungen ∂x ∂f (x) , j = 1, . . . , p ∂xj ∂f (x) Zeilenvektor derselben partiellen Ableitungen ∂x > ∂f (x) wird Gradient von f genannt. ∂x Ostap Okhrin 23 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Ableitungen Ableitungen zweiter Ordnung: ∂ 2 f (x) ∂x∂x > (p × p) Hesse-Matrix der Ableitungen zweiter Ordnung 2 ∂ f (x) , i = 1, . . . , p, j = 1, . . . , p. ∂xi ∂xj Eine nützliche Identität A(p × p), x(p × 1) ∈ Rp , a(p × 1) and A = A> ∂x > a ∂a> x = =a ∂x ∂x Ostap Okhrin 24 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Ableitungen Beispiel: f : Rp → R, f (x) = a> x a = (1, 2)> , x = (x1 , x2 )> ∂(x1 + 2x2 ) ∂a> x = = (1, 2)> = a ∂x ∂x Ostap Okhrin 25 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Ableitungen Ableitungen der quadratischen Form ∂x > Ax = 2Ax ∂x ∂ 2 x > Ax = 2A ∂x∂x > Ostap Okhrin 26 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Ableitungen Zusammenfassung: Ableitungen ∂f (x) ∂x wird Gradient genannt. > ∂a> x Gradient ∂x = ∂x∂x a entspricht a. > Ableitung der quadratischen Form ∂x∂xAx entspricht 2Ax. Hesse-Matrix von f : Rp → R ist die Matrix (p × p) der Der Spaltenvektor Der Die Die partiellen Ableitungen zweiter Ordnung ∂ 2 f (x) ∂xi ∂xj . Die Hesse-Matrix der quadratischen Form x > Ax entspricht 2A. Ostap Okhrin 27 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Blockmatrizen A11 A12 A21 A22 Aij (ni × pj ), n1 + n2 = n und p1 + p2 = p A11 + B11 A12 + B12 A+B = A21 + B21 A22 + B22 > > B11 B21 > B = > > B12 B22 > + A B> > > A11 B11 12 12 A11 B21 + A12 B22 > AB = > + A B> > > A21 B11 22 12 A21 B21 + A22 B22 A(n × p), B(n × p), A = Ostap Okhrin 28 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen A(p × p)ist nicht-singulär zerlegt, so dass A11 , A22 quadratische Matrizen sind. 11 A A12 −1 A = A21 A22 , wobei A11 12 A A21 22 A Ostap Okhrin = = = = def −1 = (A −1 (A11 − A12 A−1 11·2 ) 22 A21 ) −1 −1 −(A11·2 ) A12 A22 −1 −A−1 22 A21 (A11·2 ) −1 −1 A22 + A22 A21 (A11·2 )−1 A12 A−1 22 29 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Matrix A11 ist nicht-singulär |A| = |A11 ||A22 − A21 A−1 11 A12 | und A22 nicht-singulär |A| = |A22 ||A11 − A12 A−1 22 A21 | 1 b> B= a A → |B| = |A − ab> | = |A||1 − b> A−1 a| (A − ab> )−1 = A−1 + Ostap Okhrin A−1 ab> A−1 1 − b> A−1 a 30 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Zusammenfassung: Blockmatrizen Für eine zerlegte Matrix A(n × p) = B11 B12 B(n × p) = gilt B21 B22 A+B = Ostap Okhrin A11 A12 A21 A22 A11 + B11 A12 + B12 A21 + B21 A22 + B22 und . 31 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Zusammenfassung: Blockmatrizen Das Produkt AB > entspricht > + A B> > > A11 B11 12 12 A11 B21 + A12 B22 . > + A B> > > A21 B11 22 12 A21 B21 + A22 B22 Ostap Okhrin 32 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Zusammenfassung: Blockmatrizen Für eine nicht-singuläre Matrix A sind A11 , A22 quadratische Matrizen 11 A A12 −1 A = A21 A22 −1 def A11 = (A11 − A12 A−1 = (A11·2 )−1 22 A21 ) 12 −1 −1 A = −(A11·2 ) A12 A22 21 −1 A = −A−1 22 A21 (A11·2 ) 22 −1 −1 A = A22 + A22 A21 (A11·2 )−1 A12 A−1 22 Ostap Okhrin 33 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Blockmatrizen Zusammenfassung: Blockmatrizen 1 b> und für nicht-singuläre Matrix A ist Für B = a A |B| = |A − ab> | = |A||1 − b> A−1 a|. (A − ab> )−1 = A−1 + Ostap Okhrin A−1 ab > A−1 1−b > A−1 a 34 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Geometrische Aspekte Abstandsfunktion d : R2p → R+ d 2 (x, y ) = (x − y )> A(x − y ), A>0 A = Ip , Euklidischer Abstand Ed = {x ∈ Rp | (x − x0 )> (x − x0 ) = d 2 } Beispiel: x ∈ R2 , x0 = 0, x12 + x22 = 1 Norm eines Vektor bezüglich der Metrik Ip √ kxkIp = d (0, x) = x > x Ostap Okhrin 35 of 46 Abstand d . d 2 (x, y ) = (x − y )> (x − y ) Kreis. A = I2 , (x1 − x01 )2 + (x2 − x02 )2 = d 2 Ellipsoid. Ed = {x : (x − x0 )> A(x − x0 ) = d 2 }, γj = Evec(A), A > 0 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Winkel zwischen Vektoren Skalarprodukt < x, y > = x > y < x, y >A = x > Ay Norm eines Vektors √ kxkIp kxkA = d (0, x) = √ = x > Ax x >x Einheitsvektor {x : kxk = 1} Ostap Okhrin 39 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Winkel zwischen Vektoren Der Winkel zwischen den Vektoren x und y berechnet sich über: cos θ = x >y kxk ky k Beispiel: Winkel = Korrelation Beobachtungen {xi }ni=1 , {yi }ni=1 x =y =0 P rXY = qP xi yi = cos θ P xi2 yi2 Korrelation korrespondiert zu dem Winkel zwischen x, y ∈ Rn . Ostap Okhrin 40 of 46 Winkel zwischen den Vektoren. x >y x1 y1 + x2 y2 cos θ = = = cos θ1 cos θ2 + sin θ1 sin θ2 kxkky k kxkky k Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Spaltenraum X (n × p) Datenmatrix C (X ) = {x ∈ Rn | ∃a ∈ Rp so that X a = x} Projektionsmatrix P(n × n), P = P > = P 2 (P ist idempotent) Sei b ∈ Rn , a = Pb ist die Projektion von b auf C (P) Ostap Okhrin 42 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Projektion auf C (X ) X (n × p), P = X (X > X )−1 X > PX = X , P ist ein Projektor, PP = P. Q = In − P, Q2 = Q px = y >x y ky k2 PX = X QX = 0 Ostap Okhrin 43 of 46 Projektion. px = y (y > y )−1 y > x = y >x y ky k2 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Zusammenfassung: Geometrische Aspekte Ein Abstand zwischen zwei p-dimensionalen Punkten x, y ist eine quadratische Form (x − y )> A(x − y ) der Vektordifferenz (x − y ). Ein Abstand definiert die Norm eines Vektors. Iso-Abstandskurven eines Punktes x0 sind alle Punkte, die denselben Abstand zu x0 haben. Iso-Abstandskurven sind Ellipsoiden, deren Hauptachsen von den Richtungen der Eigenvektoren bestimmt werden. Die halbe Längen der Hauptachsen sind proportional zum Inversen der Wurzeln der Eigenwerte von A. Ostap Okhrin 45 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Geometrische Aspekte Zusammenfassung: Geometrische Aspekte Der Winkel zwischen zwei Vektoren x und y ist gegeben durch > cos θ = kxkxA Ay ky kA bezüglich der Metrik A. Für die Euklidische Distanz mit A = I ist die Korrelation zwischen zwei zentrierten Datenvektoren x und y ist gegeben durch den Cosinus des Winkels zwischen beiden Vektoren, d. h. cos θ = rXY . Die Projektion P = X (X > X )−1 X > ist die Projektion auf den Spaltenraum C (X ) of X . Die Projektion von x ∈ Rn auf y ∈ Rn ist gegeben durch y >x y. px = ky k2 Ostap Okhrin 46 of 46