Korrelationsmatrix: Auto.cor<-cor(Auto.frame) round(Auto.cor,digits=4) X1 X2 X3 X4 X5 X6 X7 X1 1.0000 0.8143 0.8690 -0.2242 -0.5014 0.1700 -0.4315 X2 0.8143 1.0000 0.7980 0.0057 -0.2187 0.2979 -0.2339 X3 0.8690 0.7980 1.0000 0.0686 -0.1808 0.4726 -0.0983 X4 -0.2242 0.0057 0.0686 1.0000 0.8163 0.7758 0.8589 X5 -0.5014 -0.2187 -0.1808 0.8163 1.0000 0.6812 0.9090 X6 0.1700 0.2979 0.4726 0.7758 0.6812 1.0000 0.7364 X7 -0.4315 -0.2339 -0.0983 0.8589 0.9090 0.7364 1.0000 MV07f01 Eigenwerte: Auto.eigen<-eigen(cor(Auto.frame))$values round(Auto.eigen,digits=4) 3.5668 2.8133 0.2586 0.1630 0.0818 0.0655 0.0510 Kumulierter Anteil der erklärten Variation: round(cumsum(Auto.eigen/7)*100,digits=2) 50.95 91.14 94.84 97.17 98.34 99.27 100.00 Eigenvektoren: Auto.eigenvektor12<-eigen(cor(Auto.frame))$vectors[,1:2] round(Auto.eigenvektor12,digits=4) -0.3097 0.4647 -0.1903 0.5014 -0.1423 0.5497 0.4595 0.2115 0.5057 0.0544 0.3501 0.4175 0.5081 0.0919 MV07f02 Faktorenladungen: Auto.Ladung<-Auto.eigenvektor12%*%diag(sqrt(Auto.eigen[1:2])) round(Auto.Ladung,digits=4) [,1] [,2] X1 -0.5849 0.7794 X2 -0.3593 0.8410 X3 -0.2688 0.9221 X4 0.8678 0.3548 X5 0.9551 0.0912 X6 0.6612 0.7002 X7 0.9597 0.1542 Kommunalitäten: Auto.Kommun<-diag(Auto.Ladung%*%t(Auto.Ladung)) round(Auto.Kommun,digits=4) 0.9496 0.8364 0.9225 0.8789 0.9205 0.9274 0.9447 MV07f03 Restmatrix: Ψ(2) = R − Λ(2)Λt(2) Auto.Rest<-Auto.cor-Auto.Ladung%*%t(Auto.Ladung) round(Auto.Rest,digits=4) X1 X2 X3 X4 X5 X6 X1 0.0504 -0.0514 -0.0069 0.0068 -0.0139 0.0109 X2 -0.0514 0.1636 -0.0741 0.0191 0.0478 -0.0534 X3 -0.0069 -0.0741 0.0775 -0.0253 -0.0081 0.0046 X4 0.0068 0.0191 -0.0253 0.1211 -0.0449 -0.0464 X5 -0.0139 0.0478 -0.0081 -0.0449 0.0795 -0.0141 X6 0.0109 -0.0534 0.0046 -0.0464 -0.0141 0.0726 X7 0.0096 -0.0188 0.0175 -0.0286 -0.0217 -0.0060 MV07f04 X7 0.0096 -0.0188 0.0175 -0.0286 -0.0217 -0.0060 0.0553 Rotation: Optimale Drehwinkel nach Varimax: α = −21.8◦ T = cos(α) sin(α) − sin(α) cos(α) = 0.9284 −0.3716 0.3716 0.9284 Λ̃(2) = Λ(2)T Dreh.mat<-matrix(c(0.9284, -0.3716, 0.3716, 0.9284), byrow=T, nrow=2) Auto.Dreh.Ladung<-Auto.Ladung%*%Dreh.mat Ladungsmatrix nach der Drehung: round(Auto.Dreh.Ladung,digits=4) [,1] [,2] X1 -0.2534 0.9409 X2 -0.0211 0.9143 X3 0.0931 0.9559 X4 0.9375 0.0069 X5 0.9206 -0.2702 X6 0.8740 0.4044 X7 0.9483 -0.2134 MV07f05 Hilfe zur Interpretation der Faktoren: +, wenn |λjk | > 0.5 Anschaffungspreis Betriebskosten Umfang der Serienausstattung Styling der Karosserie Prestige der Marke Fahrkomfort Raumangebot 1. Faktor: Produktdesign 2. Faktor: Wirtschaftlichkeit MV07f06 X1 X2 X3 X4 X5 X6 X7 f1 f2 + + + + + + + Darstellung der Variablen vor und nach der Drehung: 1.0 X2 X3 0.5 X6 0.0 X4 X7 X5 −1.0 −0.5 2. Faktor 0.0 −0.5 X5 −1.0 2. Faktor X4 X7 −1.0 −0.5 0.0 1. Faktor MV07f07 X1 X6 0.5 1.0 X3 X2 X1 0.5 1.0 −1.0 −0.5 0.0 1. Faktor 0.5 1.0 Faktorenanalyse in R: factanal(Auto.frame,factors=2) Call: factanal(x = Auto.frame, factors = 2) Uniquenesses: X1 X2 X3 X4 X5 X6 X7 0.026 0.288 0.110 0.191 0.094 0.074 0.072 Loadings: Factor1 Factor2 X1 -0.253 0.954 X2 0.843 X3 0.938 X4 0.899 X5 0.910 -0.280 X6 0.871 0.409 X7 0.942 -0.204 Factor1 Factor2 SS loadings 3.356 2.788 Proportion Var 0.479 0.398 Cumulative Var 0.479 0.878 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 4.96 on 8 degrees of freedom. The p-value is 0.762 MV07f08 1. Uniquenesses: Spezifische Varianzen, d.h. Var(ej ), j = 1, . . . , 7 2. Loadings: Faktorenladungen. 3. SS loadings: Summe der Quadrate der Faktorenladungen in der Spalte = Varianz, die durch diesen Faktor erklärt wird. 4. Proportion Var: Anteil der Varianz, die durch diesen Faktor erklärt wird. 5. Cumulative Var: Der kumulierte Anteil der erklärten Varianz. 6. Test of the hypothesis that 2 factors are sufficient: Nullhypothese: Zwei Faktoren reichen. P G ∼ χ2[(m−p)2−m−p]/2 m = 7, p = 2 =⇒ [(7 − 2)2 − 7 − 2]/2 = 8 PG = 4.96 P-Wert: round(1-pchisq(4.96,8),digits=3) 0.762 MV07f09 Auto.Lade.ML<-factanal(Auto.frame, factors=2) $loadings[,1:2] round(Auto.Lade.ML,digits=4) Factor1 Factor2 X1 -0.2533 0.9536 X2 -0.0332 0.8431 X3 0.0953 0.9384 X4 0.8995 0.0004 X5 0.9096 -0.2803 X6 0.8708 0.4090 X7 0.9417 -0.2039 1.0 X2 X3 X6 0.0 X4 X7 X5 −1.0 −0.5 2. Faktor 0.5 X1 −1.0 −0.5 0.0 1. Faktor MV07f10 0.5 1.0 Die Funktion varimax rotiert Ladungsmatrizen varimax(Auto.Ladung) $loadings [,1] [, 2] X1 -0.25243600 0.941206538 X2 -0.02010872 0.914345779 X3 0.09408922 0.955842717 X4 0.93749938 0.005961848 X5 0.92029132 -0.271209940 X6 0.87444020 0.403469382 X7 0.94802273 -0.214429463 $rotmat [,1] [,2] [1,] 0.9285955 -0.3710936 [2,] 0.3710936 0.9285955 MV07f11 Faktorenladungen nach Rotation Rotationsmatrix Die multivariate Normalverteilung Y t = (Y1, . . . , Ym) E(Y ) = µ Var(Y ) = Σ at = (a1, . . . , am) U = atY univariate ZV mit E(U ) = atµ Var(U ) = atΣa Eine m-dimensionale Zufallsvariable Y hat eine multivariate Normalverteilung, wenn alle Linearkombinationen von Y eine univariate Normalverteilung besitzen. Kap. 2.2: Σ positiv semidefinit Im Gegensatz zu Kap. 2.3: Hier keine weiteren Bedingungen an Σ. Definition über Dichte verlangt Existenz von Σ−1, d.h. Σ voller Rang und somit positiv definit Normalverteilung, für die Σ−1 nicht existiert, heißt singuläre oder degenerierte Normalverteilung. Folgerung aus der Definition: A m × p -Matrix und W = AtY =⇒ W ∼ Np(Atµ; AtΣA) Denn: Jede Linearkombination von W ist eine Linearkombination von Y und damit normalverteilt. Univariat: Standardisierung: Y −µ m = 1 =⇒ ∼ N (0; 1) σ Jetzt multivariates Analogon: U ∼ Np(0; Ip), wobei p = Rang(Σ) und Ip pY ∼ Nm(µ; Σ) dimensionale Einheitsmatrix MV07f12 Fall A: Rang(Σ) = m ∃ m × m-Matrix B: Σ = BB t Wir zeigen Y ist verteilt wie: 1/2 Λ1/2At) (z.B. Σ = AΛAt = AΛ | {z } | {z } B Bt µ + BU t) =⇒ µ + BU ∼ N (µ; Σ) U ∼ Nm(0; I) =⇒ BU ∼ Nm(0; BB m |{z} Σ Y = µ + BU Y ∼ Nm(µ; Σ) Inverse Transformation: U = B −1(Y − µ) =⇒ E(U ) = 0 −1Σ(B −1)t = B −1(BB t)(B t)−1 Var(U ) = B = B −1B B t(B t)−1 = Im Damit gilt U ∼ N (0; Im). MV07f13 Fall B: Rang(Σ) = p < m P ΣP t = Ip 0 0 0 ∃ P , nichtsingulär, so dass =⇒ ⇐⇒ Σ = P −1 P = P1 P2 Ip 0 0 0 (P −1)t für p × m Matrix P1 =⇒ Rang(P1) = p Q := P −1 Q = [Q1, Q2], wobei Q1(m × p)-Matrix mit Rang(Q1) = p Σ=Q Ip 0 0 0 Qt = [Q1, Q2] t Ip 0 Q1 t = Q Q 1 1 0 0 Qt2 Für Σ mit Rang p gibt es P1 und Q1 mit Rang p, so dass Σ = Q1Qt1 MV07f14 und P1ΣP1t = Ip Rang(Σ) = p < m =⇒ Σ = Q1Qt1 P1ΣP1t = Ip Wir zeigen Y ist verteilt wie: µ + Q1U U ∼ Np(0; I) Q1U (m×1) ∼ Nm(0, Q1Qt1) = Nm(0, Σ) vom Rang p Y = µ + Q1U ∼ Nm(µ; Q1Qt1) = Nm(µ; Σ) vom Rang p Wenn umgekehrt Y ∼ Nm(µ; Σ), so gilt mit der p × m-Matrix P1 U = P1(Y − µ)p×1 ∼ Np(0; P1ΣP1t) = Np(0; I) Y = µ + Q1U ∼ Nm(µ; Q1Qt1) = Nm(µ; Σ) vom Rang p U = P1(Y − µ)p×1 ∼ Np(0; P1ΣP1t) = Np(0; I) Die Matrizen P1 und Q1 können z.B. so gewählt werden: Rang(Σ) = p < m: Λ Diagonalmatrix Eigenwerte 6= 0 von Σ und A die m × p-Matrix der zugehörigen Eigenvektoren P1 = Λ−1/2At Q1 = AΛ1/2 Rang(Σ) = m Λ Diagonalmatrix der Eigenwerte von Σ und A m × m-Matrix der zugehörigen Eigenvektoren P1 = P = Λ−1/2At Q1 = Q = P −1 = B Hauptkomponentenanalyse, transformierte Variablen sind unkorreliert und haben Varianz 1 MV07f15 Zusammenfassung: Y ∼ Nm(µ; Σ) mit Rang p ≤ m gilt genau dann, wenn Y = µ + BU , wobei U ∼ Np(0; I), BB t = Σ und B ist eine m × p-Matrix vom Rang p. Wenn Σ vollen Rang hat, ist B eine m × m-Matrix mit vollem Rang und wir schreiben: U = B −1(Y − µ). MV07f16 Eigenschaften der multivariaten Normalverteilung Y ∼ Nm(µ, Σ) vom Rang m =⇒ (Y − µ)tΣ−1(Y − µ) ∼ χ2m m=1 =⇒ [(Y − µ)/σ]2 ∼ χ21 U = B −1(Y − µ) mit BB t = Σ und U ∼ N (0; I) m P t U U= Uj2 Uj ∼ N (0; 1) =⇒ U tU ∼ χ2m j=1 U tU = (Y − µ)t(B −1)tB −1(Y − µ) = (Y − µ)tΣ−1(Y − µ) µ0 6= µ ⇒ (Y − µ0)tΣ−1(Y − µ0) ∼ χ2m(δ 2) Nichtzentralitätsparmeter: δ 2 = (µ − µ0)tΣ−1(µ − µ0) MV07f17 Randverteilungen und bedingte Verteilungen Y = Y1 Y2 µ= Σ11 q × q mit Y 1 ein (q × 1) − Vektor q < m µ1 µ2 Σ= Σ22 (m − q) × (m − q) Σ11 Σ12 Σ21 Σ22 Σ12 = Σt21 q × (m − q) • Y1 ∼ Nq (µ1; Σ11). • Y 1 und Y 2 unabhängig ⇐⇒ Σ12 = 0. • Rang(Σ22) = m − q =⇒ Y 1|Y 2 = y 2 multivariat Normal mit: E(Y 1|Y 2 = y 2) = µ1 + Σ12Σ−1 22 (y 2 − µ2) Var(Y 1|Y 2 = y 2) = Σ11 − Σ12Σ−1 22 Σ21 MV07f18 Bedingte Verteilungen für q = 1 E(Y 1|Y 2 = y 2) = µ1 + Σ12Σ−1 22 (y 2 − µ2) Var(Y 1|Y 2 = y 2) = Σ11 − Σ12Σ−1 22 Σ21 q = 1 =⇒ Y 1 = Y1 Σ12Σ−1 22 E(Y1|Y 2 = y 2) = µ1 + Σ12Σ−1 22 (y 2 − µ2) 1 × (m − 1) E(Y1|Y 2 = y 2) = µ1 + β2(y2 − µ2) + . . . + βm(ym − µm) 1 Var(Y1|Y 2 = y 2) = 11 σ σ1 m = 2 ⇒ E(Y1|Y2 = y2) = µ1+ρ (y2−µ2) σ2 Var(Y1|Y2 = y2) = σ12(1−ρ2) MV07f19 Zerlegung der unbedingten Varianz: Var(Y1|Y 2 = y 2) = σ11 − Σ12Σ−1 22 Σ21 σ11 = Σ12Σ−1 22 Σ21 + Var(Y1|Y 2 = y 2) SQ(Total) = SQ(Regression) + SQ(Residuale) MV07f19a Linearkombinationen zufälliger Vektoren: V = n P r=1 dr X r X r zufällige Vektoren; dr skalare Konstanten. E(X r ) = µr , Varianz-Kovarianzmatrix Σr µV = E(V ) = n X dr E(X r ) = r=1 ΣV = Var(V ) = n X d2r Σr + 2 r=1 Wenn X r normalverteilt, dann auch V n X dr µr r=1 X r<s dr dscov(X r , X s) V = n P r=1 dr X r ΣV = Var(V ) = n X d2r Σr + 2 X dr dscov(X r , X s) r<s r=1 X r unkorreliert und dieselbe Varianz-Kovarianzmatrix Σ Var(V ) = dt = (d1, d2, . . . , dn) MV07f20 n X r=1 d2r Σ = (dtd)Σ X r unkorreliert und dieselbe Varianz-Kovarianzmatrix Σ V = n P r=1 dr1X r W = n P r=1 dr2X r cov(V , W ) = (dt1d2)Σ Wenn X r normalverteilt , so auch V und W . V und W sind unabhängig, wenn dt1d2 = 0. dti = (d1i, d2i, . . . , dni) Stichprobenmittelwert: X r ∼ Nm(µ; Σ) unabhängig X̄ = n P r=1 X r /n dr = 1/n 1 X̄ ∼ Nm µ; Σ n m = 1 ⇒ Var(X̄) = σ 2/n MV07f21 Schätzung der Parameter X̄ erwartungstreuer Schätzer des Parameters µ S erwartungstreuer Schätzer von Σ X multivariate Normalverteilung =⇒ X̄ M-L-Schätzer von µ [(n − 1)/n]S M-L-Schätzer von Σ Gemeinsame Verteilung von X̄ und S ??? Brauchen: Wishart-Verteilung!!! MV07f22 Die Wishart-Verteilung Multivariate Verallgemeinerung der χ2-Verteilung Seien X r , r = 1, 2, . . . , f unabhängig und Nm(µr ; Σ). Dann nennt man die f P X r X tr eine Wishart-Verteilung und Verteilung der m × m-Matrix W = r=1 W wird eine Wishart-Matrix genannt. Die Verteilung heißt zentral, wenn alle µr = 0 und wir schreiben dann: W ∼ Wm(f, Σ) Andernfalls heißt die Verteilung nichtzentral und wir schreiben: W ∼ Wm(f, Σ; M ) Dabei ist M t = [µ1, µ2, . . . , µf ]. MV07f23 Wishart-Matrix: X t1 X t2 X =. . X tf X = (Y 1, Y 2, . . . , Y m) X t1 W = X tX = (X 1, . . . , X f ) .. = X tf t 1 t 2 f X X r X tr = (wij )m×m r=1 t 1Y 1 t 2Y 1 t 1Y 2 t 2Y 2 t 1 Ym t 2 Ym Y Y Y ... Y Y Y Y ... Y t X X = . (Y 1, Y 2, . . . , Y m) = . . . . . . . . . . Y tm Y tmY 1 Y tmY 2 . . . Y tmYm wij = Y t iY j = f P r=1 Yir Yjr = f P r=1 XriXrj das (ij)-te Element von W , d.h. W ist die zufällige Matrix der (unkorrigierten) Summen der Quadrate und Produkte der Y j . MV07f24 Eigenschaften der Wishart-Verteilung: 1. E(W ) = f Σ + M tM 2. Rang(W ) = min(f, m) mit Wahrscheinlichkeit 1. 3. W1 ∼ Wm(f1, Σ; M1) und W2 ∼ Wm(f2, Σ; M2) unabhängig =⇒ W1 + W2 ∼ Wm(f1 + f2, Σ; M ) mit M t = [M1t|M2t]. 4. W ∼ Wm(f, Σ; M ) und C eine m × q-Matrix von Konstanten =⇒ C tW C ∼ Wq (f, C tΣC; M C) t t Z r = C X r =⇒ C W C = f P r=1 C t t X r X tr C t = Z r unabhängig und Z r ∼ N (C µr ; C ΣC). f P r=1 Z r Z tr 5. W ∼ Wm(f, Σ; M ) und c ein (m × 1)-Vektor von Konstanten =⇒ ctW c ∼ σ 2χ2f (δ 2) wobei σ 2 = ctΣc und σ 2δ 2 = ctM tM c MV07f25 X t1 Xt 2 X= . . X tn X r ∼ Nm(µr ; Σ) unabhängig mit E(X t) = M t = [µ1, µ2, . . . , µn] D = [d1, d2, . . . , dn] n × n orthogonal dr1 n P d r2 = V r = X tdr = (X 1, X 2, . . . , X n) driX i, .. i=1 drn =⇒ V r ∼ Nm(ν r ; Σ) unabhängig mit ν r = M tdr MV07f26 r = 1, 2, . . . , n 6. Die Wishart-Matrix X tX kann in die Summe von unabhängigen Wishart-Matrizen zerlegt werden: s X X tDk Dkt X X tX = k=1 Dk (n × nk )-Matrizen mit s P k=1 nk = n. Spalten sind disjunkte Teilmengen einer orthogonalen Matrix D. MV07f26a Gemeinsame Verteilung X̄ und S X r ∼ Nm(µ; Σ), r = 1, 2, . . . , n unabhängig und identisch X t = [X1, X2, . . . , Xn] D n × n orthogonal; D = [d1, D2] √ t d1 = (1/ n)[1, 1, . . . , 1] X tX = X td1dt1X + X tD2D2t X unabhängige Wishart-Matrizen V r := X tdr unabhängig, normalverteilt, Kovarianzmatrix Σ n P √ 1 V 1 = √n X r = nX̄ r=1 X td1dt1X = V 1V t1 = nX̄ X̄ t n X X tD2D2t X = V r V tr = X tX − nX̄ X̄ t = (n − 1)S r=2 MV07f27 √ X̄ = (1/ n)V 1 =⇒ X̄ ∼ Nm(µ; (1/n)Σ) Verteilung von S ??? r > 1 =⇒ E(V r ) = E n P s=1 dsr X r n P 1 da dt1dr = √n dsr = 0 s=1 ! = | n X s=1 dsr µ = 0 = 0 {z =0 } Definition einer Wishart-Verteilung =⇒ n X (n − 1)S = V r V tr ∼ Wm(n − 1, Σ) r=2 E(S) = Σ X̄ ∼ N (µ; σ 2/n) n P s2 = (1/(n − 1)) (xr − x̄)2 m=1 r=1 (n − 1)s2 ∼ σ 2χ2n−1 MV07f28