Multivariate Analyse: FS 2012 Ergänzungen zur Mitschrift der Vorlesung über Multivariate Datenanalyse von Prof. A. Barbour by PD Dr. Daniel Mandallaz Chair of Land Use Engineering Department of Environmental Sciences, ETH Zurich Übungen: Mathias Weyland Vorwort Diese bündigen Unterlagen sind Ergänzungen und zum Teil Erweiterungen zur Mitschrift der Vorlesung ’Multivariate Datenanalyse’ von Prof. em. Andrew D. Barbour, welche von Mathias Weyland verfasst wurde. Der Titel der Vorlesung ist ein bisschen irreführend, weil andere Themen ebenfalls behandelt werden (u. A. nichtparametrische Verfahren sowie Resampling-Methoden). Es ist bekanntlich schwierig, vielleicht sogar unmöglich, multivariate statistische Verfahren ganz ohne lineare Algebra zu erklären. Aus diesem Grund werden die für die Vorlesung wichtigsten Begriffe der linearen Algebra ebenfalls behandelt (eine kurze Einführung ist ebenfalls in der Mitschrift gegeben). Studierende, welche die multivariaten Verfahren gründlich beherrschen wollen, sollten idealerweise die Vorlesung ’Lineare Algebra’ belegt haben, auch wenn a posteriori. Ferner sei darauf hingewiesen, dass statistische Grundkenntnisse (z.B. Tests von Hypothesen, Vertrauensintervalle, parametrische und nicht-parametrische Varianzanalyse) vorausgesetzt werden, welche im Skript der Vorlesung ’Biologische Datenanalyse’ von D. Mandallaz behandelt werden. Kapitel 1 Nicht-parametrische und Permutationstests 1.1 Der Vorzeichen-Test Wir betrachten n unabhängige binäre Zufallvariablen Xi mit P(Xi = 1) = p und P(Xi = 0) = 1 − p und die Teststatistik T = N X Xi (1.1) i=1 Die Nullhypothese sei H0 : p = p0 und die einseitige Alternative HA : p > p0 . Wir verwerfen die Nullhypothese H0 sobald T ≥ b und wählen b sodass n X n x P(T ≥ b | H0 ) = p (1 − p0 )n−x ≤ α (1.2) x 0 x=b Diese Entscheidungsregel hat somit Niveau (Level) α. Die beobachtete Realisierung von T sei nun t = T obs . Die beobachtete Signifikanzschranke (observed significance level, p-value) ist definiert als n X n x obs p+ = p0 (1 − p0 )n−x (1.3) x obs x=T Für die andere einseitige Alternative HA : p < p0 definieren wir analog pobs − obs T X n x = p0 (1 − p0 )n−x x x=0 (1.4) Die beobachte Signifikanzschranke bezüglich der zweiseitigen Alternative HA : p 6= obs po ist 2 min(pobs + , p− ). Für grosse n kann man die z Statistik T obs − np0 z obs = p np0 (1 − p0 ) verwenden, welche nach dem Zentralgrenzwertsatz unter H0 genähert standard norq p̂(1−p̂) mal verteilt ist, sodass ein (1− α)-Vertrauensintervall mittels p̂ ± z1− α2 konn Pn x i struiert werden kann, wobei p̂ = i=1 die relative Frequenz der xi = 1 ist (zur n α Erinnerung: z1− 2 = 1.96 ≈ 2 für (1 − α) = 0.95. Für kleine n können exakte pobs und Vertrauensintervalle berechnet werden, allerdings nur in diskreten Stufen. Der Vorzeichentest kommt in vielen Anwendungen vor, wie zum Beispiel: 1 1. Median: Yi unabhängig gleichverteilt, mit stetiger Verteilungsfunktion F (x) = P(Yi ≤ x). Die Nullhypothese H0 besagt, dass der Median von F gleich θ0 ist ( d.h. F ist symmetrisch um θ0 ), die einseitige Alternative ist P(Yi >Pθ0 ) > 12 . Man n definiert Xi = 1 falls Yi > θ0 und Xi = 0 sonst, und T = i=1 Xi . Man wendet den Vorzeichentest für T an, mit H0 : p = P(Yi > θ0 ) = 12 = p0 und HA : p > 12 = p0 , analog für HA : p < 21 und den zweiseitigen Test. 2. Paar-Vergleich: Wir haben in diesem Fall m unabhängige Paare (Xi , Yi ), von numerischen oder qualitativen Variable und möchten testen, ob Xi > Yi (Xi ’besser’ als Yi ), bzw. Xi < Yi (bzw. Xi ’schlechter’ als Yi ). Wir definieren p+ = P(Xi > Yi ), p− = P(Xi < Yi ). Dann gilt offensichtlich P(Xi = Yi ) = 1 − (p+ + p− ) (Xi und Yi equivalent). Die ensprechend beobachteten Frequenzen sind m+ m− m0 = = = n X i=1 n X i=1 n X I{xi >yi } I{xi <yi } I{xi =yi } i=1 Man will die Nullhypothese H0 : p+ = p− gegeben m0 testen. In diesem Falle ist m+ binomial verteilt mit p = 21 und m − mo Beobachtungen. Man wendet also den Vorzeichentest mit T = m+ , p0 = 21 und n = m − m0 an. 3. Vergleich von Poisson-Verteilungen: X1 und X2 seien Poisson-verteilt mit Parametern λ1 und λ2 . Die Nullhypothese ist H0 : λ1 = λ2 . Sei ferner S = X1 + X2 , bekanntlich auch Poisson-verteilt mit Parameter λ1 + λ2 . Wir haben P(X2 = x2 | S = n) = P(X2 = x2 und X1 = n − x2 ) P(S = n) = λ2 2 −λ1 λ1 1 x2 ! e x1 ! n 2) e−(λ1 +λ2 ) (λ1 +λ n! = λ x2 λ n−x2 n! 2 1 x2 !(n − x2 )! λ1 + λ2 λ1 + λ2 e−λ2 x x also binomial verteilt mit Parametern n = x1 + x2 und p = ist p = 12 . λ2 λ1 +λ2 . Unter H0 Beispiel: in 1989 gab es 21 Verkehrstote in der Stadt Zürich, in 1990 nur 19. Ist diese Abnahme signifikant? Solche Daten werden oft erfolgreich mit Poisson Verteilungen modelliert (seltene Ereignisse). Mit n = 40 und x2 = 19 bekommt man als exaktes 95%-Vertrauensintervall [0.315, 0.639] welches p = 0.5 enthält. Die Abnahme ist somit nicht signifikant. Die Approximation mitq 1 19 19 tels der Normalverteilung liefert das Intervall 19 40 ± 1.96 40 40 (1 − 40 ) = [0.32, 0.63]. Eine knapp signifikante Abnahme hätte man mit nur 9 Verkehrstote in 1990. 2 1.2 Kruskal-Wallis und Wilcoxon Tests Der Kruskal-Wallis Test ist eine nicht parametrische Version der klassische EinwegVarianzanalyse mit k Gruppen, der Test von Wilcoxon bezieht sich auf den Spezialfall k = 2. Wir betrachten k unabängige Stichproben mit jeweils ni , i = 1, 2 . . . k Beobachtungen. Die zugörigen Zufallsvariable haben stetige Verteilungsfunktionen F (x − θ1 ), F (x − θ2 ), . . . F (x − θk ), (P(Xi ≤ x) = F (x − θi )), wobei θi ein Lokationsparameter der i-ten Population (z.B. Erwartungswert oder Median). Wir wollen die Nullhypothese H0 : θ1 = θ2 = . . . θk gegen die Alternative testen, dass mindestens zwei Populationen ungleich sind, also θi 6= θj für i 6= j. Die Beobachtungen sind Realisierungen der Zufallsvariablen X11 , . . . X1n1 . . . Xk1 . . . Xknk Wir betrachten die gesamte Stichprobe der n = n1 + n2 + . . . nk Beobachtungen, aufsteigend geordnet: Rij ist der Rang (also eine ganze Zahl zwischen 1 und n, unter der Annahme alle Xij voneinander verschieden sind (keine Bindungen). Unter H0 haben alle n Beobachtungen dieselbe Verteilung F (x − θ), sodass der Vektor der Ränge R = (R11 , . . . R1n1 , . . . Rk1 . . . Rknk ) eine Permutation der Zahlen 1, 2, . . . n ist. Unter H0 sind alle Permutationen gleich wahrscheinlich, mit Wahrscheinlichkeit Pn n(n+1) 1 , mit Mittelwert R̄.. = n+1 i=1 i = n! . Die Summe aller Ränge ist R.. = 2 2 . Der mittlere Rang in der i-ten Population ist ni 1 X Ri. R̄i. = Rij = ni j=1 ni Unter H0 ist der Erwartungswert der Ränge in allen Populationen gleich. Wir haben somit EH0 (R̄i. ) = n+1 2 2 Grosse Werte von (R̄i. − n+1 2 ) weisen daher auf Abweichung von der Nullhypothese hin. Kruskal and Wallis (1952) haben folgende Teststatistik vorgeschlagen: k k X X R2 n + 1 2 12 12 i. ni R̄i. − = − 3(n + 1) K := n(n + 1) i=1 2 n(n + 1) i=1 ni (1.5) Es ist grundsätzlich durch Abzählung möglich, die exakte diskrete Verteilung von K unter H0 zu bestimmen. Für grosse ni kann diese Verteilung mit einer Chi-Quadrat Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Wenn Bindungen vorhanden sind, kann man die Ränge der Beobachtungen mit den gleichen Werten durch den zueordneten mittleren Rang ersetzen. Die exakte Verteilung wird jedoch komplizierter. Software Pakete liefern exakte Tests für nicht allzu grosse n, auch mit Bindungen. Im Falle von nur zwei Populationen (k = 2) kann man den statistisch äquivalenten Wilcoxon Test (1945) anwenden. Sei W1 die Summe der Ränge der ersten Stichprobe und W2 die Summe der Ränge der zweiten Stichprobe, wobei die Ränge in der zusammengesetzten Stichprobe von allen n = n1 + n2 Beobachtungen ermittelt werden. Man hat W1 + W2 = n(n+1) und der mittlere Rang unter 2 n1 +n2 +1 H0 ist wie vorhin . Der Erwartungswert von W1 unter H0 ist demnach 2 2 +1) EH0 (W1 ) = n1 (n1 +n . Die Varianzen unter H0 von W1 and W2 sind beide gleich 2 3 n1 n2 (n1 +n2 +1) . 12 Für grosse n1 and n2 ist die Teststatistik W1 − z= q n1 (n1 +n2 +1) 2 (1.6) n1 n2 (n1 +n2 +1) 12 approximativ standard normalverteilt. In kleinen Stichproben kann die exakte diskrete Verteilung bestimmt werden. Man kann auch Bindungen wie bei KruskalWallis berücksichtigen. Im Gegensatz zur klassischen Varianzanalyse mit F -Tests wird die Normalverteilung nicht vorausgesetzt. Dies kostet allerdings etwas, nämlich ein Verlust der Macht (Power). Dieser Verlust ist jedoch in grossen Stichproben klein, zum Beispiel ca 5% im Vergleich zum Student t-Test im Falle von zwei Stichproben. 1.3 Wilcoxon Vorzeichen-Test Der Vorzeichentest kann, wie wir gesehen haben, beim Paar-Vergleich angewandt werden, wie auch der Student t-Test für gepaarte Stichproben, wenn die Differenzen normal verteilt sind (zumindest approximativ). Der Vorzeichen-Test ist selbstverständlich mit einem Informationsverlust verbunden, weil die Grösse der Differenzen nicht berücksichtigt wird. Das sogenannte Wilcoxon Vorzeichen-Test (Wilcoxon signed-rank test) ist ein Kompromiss zwischen den beiden Tests. Wir betrachten n unabhängige Zufallsvariablen Zi , mit stetiger Verteilung F , symmetrisch um θ0 . Ohne Beschränkung der Allgemeinheit setzen wir θ0 = 0 voraus (ansonsten betrachtet man die Zi − θ0 ). Wir definieren die Funktion ψ(x) gemäss ψ(x) = 1 falls x ≥ 0 sonst ψ(x) = 0. Sei ψi = ψ(Xi ). Nach Voraussetzung ist P(ψi = 1) = P(ψi = 0) = 21 . Man kann zeigen, dass wegen der Symmetrie von F die Zufallvariablen | Zi | und ψi stochastisch unabhängig sind. Ri+ sei der Rang von | Zi | unter | Z1 |, | Z2 |, . . . | Zn |. Der ’signed rank’ (Rang mit Vorzeichen) ist nach Definition ψi Ri+ . Es gelten für ganze Zahlen r und s zwischen 1 und n P(Ri+ = r) = P(Ri+ = r, Rj+ = s) = E(Ri+ ) = V(Ri+ ) = COV(Ri+ , Rj+ ) = 1 n 1 n(n − 1) n+1 2 (n + 1)(n − 1) 12 (n + 1) − 12 Das Wilcoxon Vorzeichen-Test ist W + = n X ψi Ri+ (1.7) i=1 Man zeigt folgende Resultate EH0 (W + ) = VH0 (W + ) = n(n + 1) 4 n(n + 1)(2n + 1) 24 4 (1.8) Für grosse n kann man die Normalverteilung als Approximation unter H0 verwenden, d.h. die Zufallvariable W + − EH0 W + Z= p VH0 (W + ) (1.9) ist unter der Nullhypothese genähert standard normal verteilt. Für kleine n kann man die exakte diskrete Verteilung von W + berechnen. Man muss dazu alle 2n Möglichkeiten der Vorzeichen {+, −} untersuchen. Im Falle von n = 3 bekommt man 23 = 8 Teilmengen von {1, 2, 3} = {R1 , R2 , R3 } mit positiven Vorzeichen. Tabelle 1.1 fasst die Resultate zusammen. Tabelle 1.1: Wilcoxon Vorzeichen-Test W + Teilmenge von {1, 2, 3} Wert von W + ∅ {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3} 0 1 2 3 3 4 5 6 Man erhält somit folgen Verteilung unter H0 P(W + = 0) = P(W + = 1) = P(W + = 2) = 1 8 P(W + = 4) = P(W + = 5) = P(W + = 6) = 1 8 1 4 Man verifiziert leicht die Formeln in (1.8) für Erwartungswert und Varianz. Die exakte Behandlung von Bindungen ist mühsam. Man kann wie üblich die mittleren Ränge verwenden oder einen kleinen zufälligen Fehler addieren; die obigen Formeln gelten dann nur approximativ. In kleinen Stichproben liefern die Sofware Pakete die exakten Tests. P(W + = 3) = 1.4 Der Test von Friedman Dieser Test ist die nicht-parametrische Version der Zweiweg-Varianzanalyse ohne Wiederholungen. Wir betrachen k Behandlungen, welche in n ’homogene’ Blöcke angewandt werden; zum Beispiel k Düngemittel jeweils in n Versuchsflächen, welche alle in k gleichgrosse Teilflächen unterteilt sind. Die Zielvariable könnte zum Beispiel 3 der Ertrag von Weizen in 10hakg sein. Die Beobachtungen der Zielvariable seien die Realisierungen der unabängigen Zufallvariablen Yij , i = 1, 2 . . . k mit j = 1, 2 . . . n. Die stetige Verteilung von Yij sei F (x − τi − βj ). Die Nullhypothese besagt, dass kein Behandlungseffekt vorliegt, d.h. H0 : τ1 = τ2 = . . . τk = τ . Unter H0 ist somit Yij , i = 1, 2 . . . k gemäss F (x − τ − βj ), j = 1, 2 . . . n, verteilt. Die Alternative Hypothese ist HA : τi 6= τj für mindestens ein Paar i 6= j. 5 Für festes j ∈ {1, 2, . . . n} sei nun Rij der Rang von Yij unter der Y1j , . . . Ykj ; Rij ist somit der Rang der Yij unter den k Beobachtungen im selben j-ten Block. Der Rangvektor R = (Rij , . . . Rkj ) ist somit unter H0 eine Permutation der ganzen Zahlen1, . . . k. Seien n 1 1X Rij = Ri. R̄i. = n j=1 n der mittlere Rang (innerhalb der Blöcke) der i-ten Behandlungen. Unter H0 haben wir n n 1X 1 X 1 k(k + 1) (k + 1) EH0 (R̄i. ) = EH0 (Rij ) = = n j=1 n j=1 k 2 2 2 Grosse Werte von (R̄i. − (k+1) 2 ) weisen auf Abweichung von der Nullhypothese von keinem Behandlungseffekt hin. Dies führt zur sogenannten Friedman Test-Statistik (1937) k Q= k X 12 (k + 1) 2 12n X R̄i. − = R2 − 3n(k + 1) k(k + 1) i=1 2 nk(k + 1) i=1 i. Für kleine n kann wiederum die exakte Verteilung von Q unter der Nullhypothese H0 berechnet werden. Für grosse n (k bleibt in der Regel klein) kann man zeigen, dass die Verteilung von Q unter H0 approximativ Chi-Quadrat mit (k − 1) Freiheitsgraden is. Die Approximation funktioniert für kn ≥ 30 sehr gut. Bei Bindungen innerhalb der Blöcke kann man die üblichen Anpassungen machen. Für kleine k und n liefern die Software Pakete exakte Tests, auch mit Bindungen. Eine ausgezeichnete Referenz für nicht parametrische Statistik ist und bleibt: E.L. Lehmann (1975). Nonparametrics: statistical methods based on ranks, Holden-Day, Inc. (McGraw-Hill International Book Company). 1.5 Permutationstests Die nicht-parametrischen Tests (wir haben nur eine kleine Anzahl der wichtigsten gesehen) befreien uns teilweise von der einschränkenden Annahme der Normalverteilung. Eine grundlegende Idee der Statistik ist die Randomisierung (Fisher), welche uns von allen Verteilungsannahmen befreit, falls die Zuordnung der statistischen Einheiten zu den Behandlungen zufällig erfolgt. Wir betrachten zum Beispiel n Patienten, identifiziert durch die Indizes i = 1, 2 . . . n, mit Werten yi der Zielvariable. Wir erzeugen eine zufällige Permutation der ganzen Zahlen 1, 2, 3, . . . n. Die ersten n1 Patienten bekommen Behandlung ’A’ und die übrigen n2 (n1 + n2 = n) bekommen Behandlung ’B’. Idealerweise erfolgt eine solche Studie ’double blind’, d.h. weder der Arzt noch der Patient weiss, welche Behandlung verabreicht wurde (wohl aber der Statistiker!). Wenn die Nullhypothese stimmt, sind die Werte der Beobachtungen von den Behandlungen ’unabängig’, sodass die meisten Permutationen auf keine Differenzen zwischen Behandlungen hinweisen. Es ist jedoch möglich, dass eine Permutation die Daten so umordnet, dass ausgerechnet alle n1 kleinsten Beobachtungen gerade die n1 ersten Beobachtungen sind. Wir betrachten folgendes Beispiel. Die erste Gruppe mit 15 Beobachtungen wurden mit Yi = 10+χ2(3) simuliert und die zweite Gruppe von ebenfalls 15 Beobachtungen gemäss Xi = 12 + χ2(2) . Die Nullhypothese setzt gleiche Erwartungswerte, was hier falsch ist. Die Daten sind offensichtlich nicht normal verteilt, wie QQ-Plots und 6 Shapiro-Wilks Test bestätigen. Als Teststatistik nehmen wir die absolute Differenz | Ȳ − X̄ |, welche gleich 1.033 ist (die wahre absolute Differenz beträgt −1). Wir 2 )! 0 0 haben in diesem Fall (nn11+n !n2 ! = 155 117 520 mögliche Permutationen. Von dieser riesigen Anzahl werden 5000 zufällig ausgewählt und für jede permutierte Stichprobe wird | Ȳ − X̄ |= ∆k , k = 1, 2 . . . 5000 berechnet. Der P -Wert des klassischen F -Tests ist in diesem Fall 0.077, was ziemlich genau dem empirischen 92.5% Quantil der empirischen Verteilung der ∆k entspricht, siehe Abbildung 1.1. Die Berechnungen wurden mit folgendem R Programm durchgeführt: mc.group1<-c(rep(1,15));mc.group2<-c(rep(-1,15)); mc.group=c(mc.group1,mc.group2) mc.group set.seed(100) data1<-round(10+c(rchisq(15,3)),digits=2) data2<-round(12+c(rchisq(15,2)),digits=2) data1 data2 hist(data1); hist(data2) mean(data1);mean(data2) deltamean=mean(data1)-mean(data2);deltamean absdeltamean=abs(deltamean);absdeltamean sd(data1)/sqrt(15);sd(data2)/sqrt(15) mc.data<-c(data1,data2) mc.data absdeltameancheck<-abs(sum(mc.group*mc.data)/15) absdeltameancheck aux.group<-factor(mc.group); anova(lm(mc.data~mc.group)) diff<-matrix(0:0,nrow=5000, ncol=1) for(i in 1:5000) { per<-c(sample(mc.group,30)); aux=per*mc.data diff[i,1]=abs(sum(aux)/15) } hist(diff, xlab="Absolute Differenz der Mittelwerte",main=" ") abline(v=absdeltamean) quantile(diff,c(0.925,0.95,0.975,0.99)) Man merke sich, dass der Befehl per<-c(sample(mc.group,30)) die zufälligen Permutationen der ursprünglichen 30 Werte erzeugt, allerdings sind diese 5000 Permutationen der Start-Sequenz (mit 15 0 10 am Anfang gefolgt von 15 0 − 10 ) nicht alle verschieden sind (man zieht aus der Menge der Menge aller n! Permutationen mit Zurücklegung), was jedoch für die empirische Bestimmung der Quantile irrelevant ist. Oft wird direkt der P -Wert der klassischen Auswertung als Test-Statistik genommen. Die Mitschrift zeigt, wie man die allgemeine EinwegVarianzanalyse mit k > 2 Gruppen mittels Permutationstests auswerten kann. Man kann auch komplexere randomisierte Designs (wie Lateinische Quadrate) analog auswerten. R bietet hierfür spezielle Pakete. 7 Abbildung 1.1: Histogramm von 5000 ∆k empirischer 92.5% Quantil: 1.029, empirischer 95%-Quantil= 1.111 Die Permutationstests sind sogenannte bedingte Tests (d.h. gegeben die Daten) und immer gültig falls das Randomisierung-Prinzip verwendet wurde. Streng genommen sind diese Tests allerdings nur für den untersuchten Datensatz gütig. Es gibt theoretische und empirische Evidenz dafür, dass die P -Werte der klassischen ANOVA-Tests den P Werten der Permutationstests ähnlich sind. In diesem Sinne ist die Einhaltung der Randomisierung vor der Auswertung wichtig, auch wenn diese mit klassischen Verfahren erfolgt. Die Randomisierung ist auch unter einem anderen Gesichtspunkt wichtig, nämlich um den potentiellen gefährlichen Einfluss von Variablen zu ’dämpfen’, welche im Modell nicht berücksichtigt wurden. 8 Kapitel 2 Resampling und Robuste Verfahren 2.1 Die empirische Verteilungsfunktion Die Verteilungsfunktion F (x) einer Zufallsvariable X ist definiert als F (x) = P(X ≤ x) Dies ist eine monoton wachsende Funktion von x. Für eine diskrete Zufallsvariable mit möglichen Werten wk (k = 1, 2, 3 . . .) ist F (x) eine stückweise konstante Treppenfunktion mit Sprungstellen in den wk . Wir betrachten nun n unabhängige gleichtverteilte Zufallsvariablen Xi mit Verteilungsfunktion F (x). xi ist die Realisierung von Xi . Die empirische Verteilungsfunktion F̂n (x) ist definiert als n F̂n (x) = 1X I{xi ≤x} (x) n i=1 (2.1) wobei IA (x) = 1 falls x ∈ A sonst IA (x) = 0. In Worten: F̂n (x) ist die relative Frequenz der n Beobachtungen xi , welche kleiner oder gleich x sind. Dies ist eine stückweise konstante Treppenfunktion mit Sprüngen in den Beobachtungen xi . Mit der Zuordnung xi → Xi können wir F̂n (x) auch als eine Zufallsvariable betrachten, mit Erwartungswert und Varianz E(F̂n (x)) = F (x) , V(F̂n (x)) = F (x)(1 − F (x)) n Nach dem Gesetz der grossen Zahlen und dem Zentralen Grenzwertsatz ist somit √ n(F̂n (x) − F (x)) asymptotisch, d.h. für grosse n, normalverteilt mit Erwartungswert 0 und Varianz F (x)(1 − F (x)). Die empirische Verteilungsfunktion ist somit eine konsistente Schätzung der wahren unbekannten kumulativen Verteilungsfunktion F (x). Sie fasst die ganze verfügbare Information zusammen, welche die Beobachtungen xi enthalten. Es ist daher intuitiv, dass die Nullhypothese H0 : F (x) = F0 (x) (d.h. die Beobachtungen sind unabhängig gemäss der Verteilung F0 (x) verteilt) mittels der empirischen Verteilungsfunktion F̂n (x) geprüft werden kann, zum Beispiel 9 mit den Statistiken Dn Wn sup | F̂n (x) − F0 (x) | x Z ∞ 2 = n F̂n (x) − F0 (x) f0 (x)dx = −∞ Z An ∞ = n −∞ 2 F̂n (x) − F0 (x) f0 (x)dx F0 (x)(1 − F0 (x)) (2.2) d wobei f0 (x) = dx F0 (x) die Wahrscheinlichkeitsdichte ist. supx steht für ’Supremum’, also die kleinste obere Schranke ( Es ist auf abgeschossene Intervalle der grösste Wert). Dn ist die Kolmogorov -Smirnov Statistik, Wn die Cramèr-von-Mieses Statistik und An die Anderson-Darling Statistik, welche die Abweichungen zwischen F̂n (x) und F0 (x) über alle x subsummieren. Alle drei Tests haben die bemerkenswerte Eigenschaft, dass die Verteilung unter H0 : F (x) = F0 (x) unabhängig von F0 ist. Für Dn zum Beispiel gilt asymptotisch (d.h. für gross n) ∞ X √ 2 2 (−1)j−1 e−2j z P( nDn ≤ z) = 1 − 2 j=1 Diese Tests sind universell gültig und in speziellen Fällen daher nicht optimal. Wenn wir zum Beispiel für F0 die Normalverteilung wählen, ist der sogenannte ShapiroWilks Test besser. In den Anwendungen sind graphische Verfahren einfacher und deswegen sehr beliebt, zum Beispiel die sogenannten Quantile-Quantile (Q-Q) Plots, welche im nächsten Abschnitt kurz erläutert werden. 2.2 Q-Q Plots Wir betrachten die Verteilungsfunktion F0 (x) und möchten prüfen, ob die unabhängige Beobachtungen xi , i = 1, 2 . . . n mit F0 bis auf Lokation und Streuung verträglich sind. Wir setzen somit voraus, dass P(Xi ≤ x) = F0 ( x−µ σ ), oder equivalent dazu, dass die nicht beobachtbaren Zufallsvariablen Yi = Xiσ−µ die Verteilungsfunktion P(Yi ≤ y) = F0 (y) haben. Seien nun Y(1) < Y(2) < . . . Y(n) die geordneteten Werte der Yi und entsprechend die X(1) < X(2) < . . . X(n) . Wegen Xi = µ + σYi gilt auch X(i) = µ + σY(i) . Bekanntlich ist die Zufallvariable Ui = F0 (Yi ) uniform auf dem Interval [0, 1] verteilt. Intuitiv ist es klar (und kann i und daher E(Y(i) ) = E(F0−1 (U(i) ) ≈ auch bewiesen werden), dass E(U(i) ) ≈ n+1 i F0−1 (E(U(i) )) ≈ F0−1 n+1 . Ferner gilt E(X(i) ) = µ + σY(i) . Unter H0 sollten im i Mittel die Punkte (F0−1 ( n+1 ), x(i) ) = (E(Y(i) ), x(i) ) auf einer Gerade liegen. Man interpretiert die E(Y(i) ) als die F0 -theoretischen und die x(i) als die beobachteten Quantile, deshalb der Name Quantile-Quantile Plot (Q-Q Plot). Wenn die Punkte stark von einer Gerade abweichen, ist es ein Hinweis gegen H0 . Man kann bei Bedarf die Parameter µ und σ mittels linearer Regression oder Maximum Likelihood schätzen. 2.3 Bootstrap Wir nehmen an, dass die Beobachtungen xi Realisierungen von n unabängigen gleichverteilten Zufallsvariablen Xi mit Verteilungsfunktion F sind. Wir wollen einen Parameter h(F ) = θ der unbekannten Verteilung F , zum Beispiel median (h(F ) = F −1 (0.5)), Erwartungswert (h(F ) = E(Xi )), bestimmte Quantile 10 (qα = h(F ) = F −1 (α)), Varianz (h(F ) = V(Xi )) usw. schätzen, und auch entsprechende Vertrauensintervalle angeben. Auch wenn F bis auf einzelne Parameter (z.B. Normalverteilung mit Erwartungswert µ und Varianz σ 2 ) bekannt ist, kann die Verteilung der Schätzung θ̂ sehr kompliziert sein (wie zum Beispiel für das Median oder die Testgrössen in 2.2, wobei h(F ) =| supx (F (x) − F0 (x)) | und analog für W und A). Oft braucht man auch weiter Eigenschaften der Schätzung θ̂n , wie zum Beispiel √ λn (F ) = PF n(θ̂n − h(F )) ≤ a = θ̂n − θ Verzerrung , Bias √ λn (F ) = V( nθ̂n ) √ n(θ̂n − h(F )) ≤ a mit Streuungsfaktor τ (F ) λn (F ) = PF τ (F ) λn (F ) (2.3) Wir betrachten Schätzer der Form θ̂n = h(F̂n ) oder λ̂n (F̂n ), also die nur von der empirischen Verteilungsfunktion abhängen (plug-in estimators). Würde man die wahre Verteilungsfunktion F kennen, könnte man die Verteilungen der Schätzung durch umfangreiche Simulationen unter F beliebig genau bestimmen. Die geniale und einfache Idee des Resampling Boostrap Verfahrens besteht darin, diese Simulationen mit F̂n statt mit F durchzuführen (Effron, 1979, 1982). Man zieht also eine sehr grosse Anzahl B Stichproben der Grösse n mittels der Verteilung F̂n . Eine solche Bootstrap Stichprobe wird mit (X1∗ , X2∗ , . . . Xn∗ ) bezeichnet, wobei die Xi∗ aus den Xi gleichwahrscheinlich (d.h. mit Wahrscheinlichkeit n1 ) mit Zurücklegung gezogen werden. P∗ und E∗ bezeichnen Wahrscheinlichkeit und Erwartungswert bezüglich dieses Verfahrens, kurz bezüglich der Verteilung F̂n . Der Satz der totalen Wahrscheinlichkeit rechtfertigt das Verfahren, weil n X n X 1 = F̂n (x) n i=1 i=1 (2.4) Die Xi∗ haben somit die Verteilungsfunktion F̂n , welche für grosse n gegen F konvergiert. Es ist somit intuitiv plausibel, dass die B Bootstrap Stichproben das Verhalten von B Stichproben unter F nachahmen, und folglich rein empirisch die Verteilung der θ̂n und λn (F̂n ) approximieren. Zur Illustration setzen wir θ = h(F ) gleich dem Median und λn (F ) sei der Bias des Stichprobenmedians θ̂n im hypothetischen Fall einer Stichprobe mit n = 3. Die Verteilung F sei zudem stetig, sodass Bindungen Wahrscheinlichkeit null haben. Die Daten sind (x(1) , x(2) , x(3) ) = (b, c, d) mit b < c < d. Die Stichproben (X1∗ , X2∗ , X3∗ ) können die 33 = 27 Werte (b, b, b), (b, b, c), (b, c, b), . . . (d, d, d) belegen. Zum Beispiel hat man P∗ [Xi∗ ≤ xi ] = P∗ [Xi∗ ≤ x | Xi∗ = xi ]P∗ (x∗i = xi ) = ∗ ∗ ∗ P∗ (X(1) = b, X(2) = b, X(3) = c) = I{xi ≤x} 3 27 gleich der Summe der Wahrscheinlichkeiten der elementaren Ereignisse (b, b, c), (b, c, b), (c, b, b) für (X1∗ , X2∗ , X3∗ ). Insgesamt bekommt man die Tabelle Der wahre Median sei θ = F −1 (0.5) mit Stichprobenschätzwert θ̂n . Der Bias ist nach Definition λn (F ) = E(θ̂n ) − θ 11 ∗ ∗ ∗ Tabelle 2.1: Wahrscheinlichkeitsraum für (X(1) , X(2) , X(3) ) Ereignis P∗ (b, b, b) (b, b, c) (b, b, d) (b, c, c) (b, c, d) (b, d, d) (c, c, c) (c, c, d) (c, d, d) (d, d, d) 1 27 3 27 3 27 3 27 6 27 3 27 1 27 3 27 3 27 1 27 θn∗ sei der Median der hypothetischen Stichprobe X1∗ , X2∗ , X3∗ , . . . Xn∗ von F̂n . Wir haben nach Definition λn (F̂n ) = E∗ (θn∗ ) − θ̂n Man kann zeigen, dass unter gewissen Regularitätsbedingungen und für grosse n, λn (F̂n ) konsistent λn (F ) schätzt. Wir betrachten hier F̂n als Zufallvariable. ∗ Im Falle n = 3 bekommt man für den Median X(2) von (X1∗ , X2∗ , X3∗ ) folgende Beziehung ∗ P∗ (X(2) = b) = 13 7 7 ∗ ∗ , P∗ (X(2) = c) = , P∗ (X(2) = d) = 27 27 27 Infolgedessen ist der Schätzer λ3 (F̂3 ) des Bias von θ̂3 = X(2) gemäss der obigen berechtigten Vermutung 7 13 7 14 X(1) + X(3) ∗ E∗ (X(2) ) − X(2) = X(1) + X(2) + X(3) − X(2) = − X(2) 27 27 27 27 2 2n−1 Man kann zeigen, dass es unter P∗ genau n verschiedene Kombinationen gibt, z.B. 10 für n = 3 und 920 378 für n = 10, exponentiell schnell wachsend mit n. λn (F̂n ) ist somit theoretisch berechenbar, leider aber in den meisten Anwendungen trotz leistungsfähiger Computer praktisch nicht. Das Bootstrap-Verfahren liefert hier eine einfache Lösung: Man simuliert B Stichproben gemäss P∗ . Die i-te simulierte Stichprobe liefert die Schätzung θi∗ und der Erwartungswert E∗ (θn∗ ) wird mit PB dem empirischen Mittelwert B1 i=1 θi∗ geschätzt. Wir betrachten ein Beispiel. Zunächst simulieren wir 100 Beobachtungen, welche Chi-Quadrat mit 4 FG verteilt sind. Der wahre Erwartungswert ist 4 und der wahre Median 3.357. Abbildungen 2.1 und 2.2 stellen Histogramm und Q-Q Plot der Rohdaten dar. Der Shapiro-Wilks Test bestätigt, dass die Daten signifikant von einer Normalverteilung abweichen, wie auch direkt vom Histogramm ersichtlich. Wir simulieren nun B = 1000 Bootstrap Stichproben (jeweils bestehend aus 100 Ziehungen mit Zurücklegung aus den 100 Rohdatenwerten). Für jede Bootstrap Stichprobe berechnen wir den Medianwert θ̂i∗ , Abbildung 2.3 zeigt das entsprechende Histogramm. Die Bestimmung von Vertrauensintervalle beruht auf der Idee, dass die Verteilung der θ̂i∗ − θ̂ die Verteilung von θ̂ − θ nachahmt. Für ein 1 − α Vertrauensintervall können wir aus diesem Grund schreiben 1 − α = P(L ≤ θ̂ − θ ≤ U ) ≈ P∗ (L ≤ θ̂i∗ − θ̂ ≤ U ) wobei L die untere und U die obere Grenzen sind. Das Vertrauensintervall für θ ist [θ̂ − U, θ̂ − L], wobei L + θ̂ und U + θ̂ die α2 und 1 − α2 Quantile der empirischen Boostrap-Verteilung sind, welche wir mit k α2 und k1− α2 bezeichnen. Dies ist gerechtfertigt, weil die exakt Wahrscheinlichkeit unter P∗ mit der entsprechenden relativen Frequenz der B = 1000 Bootstrap Stichproben geschätzt wird. Wir bekommen letzten Endes folgendes 1 − α Vertrauensintervall für θ [θ̂ − U, θ̂ − L] = [θ̂ − (k1− α2 − θ̂), θ̂ − (k α2 − θ̂)] = [2θ̂ − k1− α2 , 2θ̂ − k α2 ] 12 (2.5) Abbildung 2.1: Histogramm von 100 Chi-Quadrat xi mit 4 FG empirischer Mittelwert= 4.514, empirischer Median= 3.699 Abbildung 2.2: Q-Q Plot der 100 xi In obigen Beispiel bekommt man [3.187, 4.018] als 95% Vertrauensintervall, was sich vom naiven [2.5%, 97.5%] Quantil-Range des Histogramms der Bootstrap Medianwerte θ̂i∗ ( siehe Abbildung 2.3) unterscheidet. Die Berechnungen wurden mit folgenden einfachen R Programm durchgeführt: set.seed(200) chi<-rchisq(100,4) hist(chi,nclass=12, main=" ") qqnorm(chi);qqline(chi) mean(chi);median(chi);sd(chi);sd(chi)/sqrt(100) m<-1000;bootres1<-numeric(m) for (j in 1:m) bootres1[j]<-median(sample(chi,replace=T)) mean(bootres1);sd(bootres1);sd(bootres1)/sqrt(1000) hist(bootres1,main=" ") qqnorm(bootres1);qqline(bootres1) quantile(bootres1,probs=c(0.025,0.975)) 13 Abbildung 2.3: Histogramm der Bootstrap Medianwerte θ̂i∗ Mittelwert= 3.756, 2.5%-Quantil = 3.380, 97.5%-Quantile = 4.211 untere95<-2*median(chi)-quantile(bootres1,probs=c(0.975)) obere95<-2*median(chi)-quantile(bootres1,probs=c(0.025)) In gewissen Fällen (z.B. für Mittelwerte) kennt man die geschätzten Varianzen θ̂ ∗ −θ̂ σ̂ , bzw. σ̂i∗2 . Es ist dann besser mit der Pivot-Statistik √i ∗2 zu arbeiten, welche 2 σ̂i die empirischen Quantile q α2 und q1− α2 liefert. Man bekommt dann das (1 − α)Vertrauensintervall [2θ̂ − q1− α2 σ̂, 2θ̂ − q α2 σ̂] Die Mitschrift gibt noch weitere Beispiele. Mit Bootstrap-Verfahren kann man grundsätzlich komplexe Tests durchführen, wie in der parametrischen oder nicht parametrischen Varianzanalyse. Es ist dabei zu achten, dass eine Verifikation der P-Werten der Klassischen Analyse mit dem Bootstrap unter der Nullhypothese erfolgen muss. Das heisst im Falle der Einweg-Varianzanalyse zum Beispiel, dass man die Gruppen-Mittelwerte (oder Gruppen-Medianwerte) in jeder Gruppe von den Rohdaten subtrahieren muss, und erst dann das Bootstrap durchführt. Die Mitschrift behandelt solche Beispiele. 2.4 Robuste Verfahren Die parametrischen Verfahren setzen in der Regel erstens ein explikatives Modell (z.B. multiple lineare Regression oder Varianzanalyse), welches von unbekannten Parameter abhängt und zweitens eine bis auf Parameter bekannte Verteilungsfunktion (z.B. Normalverteilung für die Residuen) voraus. Die Parameter werden meistens mit Maximum Likelihood oder Least Squares (LS) geschätzt. Sie erlauben komplexe Modellierungen und Inferenz, welche leider auf Abweichungen vom postulierten Modell, auf Ausreisser (outliers) oder sogenannte ’Hebelpunkte’ (leverage points) so empfindlich reagieren können , dass die Auswertung fragwürdig sein kann. Die Nicht-parametrischen Verfahren (wir haben nur die üblichsten und einfachsten behandelt) sind weitgehend frei von Annahmen über die Verteilung der zugrunde liegenden Beobachtungen, erlauben in der Regel jedoch nicht so komplexe Analysen wie die parametrischen Verfahren. Die robuste Statistik versucht ein Kompromiss zwischen beiden Philosophien zu machen, indem die klassischen parametrischen Modelle in einer vollen Umgebung der Grundverteilung (zum Beispiel der Normalverteilung) ihre Gültigkeit behalten (sie sind bis zu einem gewissen Grad Ausreisser- und 14 Hebelpunkt resistent). Die emeritierten ETH Professoren Peter Huber und Frank Hampel waren massgeblich an der Entwicklung der robusten Statistik beteiligt. Der Nachteil der robusten Methoden liegt vor allem in der mathematischen und numerischen Komplexität (letztere ist heute mit der Verfügbarkeit von Software, wie z.B. R, kein grosses Hinderniss mehr). Zur Illustrierung betrachten wir die einfache lineare Regression: Yi = θ1 + θ2 ξi + ei , wobei θ1 der Achsenabschnitt ist, und θ2 die Steigung. Die explikative Variable ξi ist fest (keine Zufallsvariable) und fehlerfrei. Die theoretischen Residuen εi werden in der klassischen Theorie als normal verteilt N (0, σ 2 ) vorausgesetzt, in der robusten Statistik wird oft eine ’kontaminierte’ Normalverteilung betrachtet, mit z.B. der Rx u2 x ), wobei Φ(x) = √12π −∞ e− 2 Verteilungsfunktion F (x) = (1 − α)Φ( σx ) + αΦ( 3σ die kumulative Verteilungsfunktion der standard Normalverteilung ist; 0 < α < 0.5 ist der Anteil der ’schlechten’ Beobachtungen (Ausreisser), welche eine dreimal grössere Standardabweichung haben. Wir haben n Beobachtungen (ξi , yi ). Die LS Pn 2 Schätzungen (θ̂1 , θ̂2 ) minimieren i=1 ri , wobei ri = yi − ŷi die Residuen und ŷi = θ1 + θ2 ξi die Prognosen sind. Eine Verallgemeinerung wäre n X ρ(ri ) i=1 zu minimieren, wobei ρ(x) eine symmetrische Funktion (ρ(−x) = ρ(x)) mit einem eindeutigen Minimum in x = 0 ist. Die Wahl ρ(x) = x2 liefert die klassischen Kleinste Quadrat Schätzungen. Ableiten nach θ1 und θ2 liefert das 2×2 Gleichungssystem n X ψ(ri )xi = (0, 0) i=1 d ρ(x) und xi = (1, ξi ). Die LS Schätzungen sind nicht Ausreisser wobei ψ(x) = dx resistent, weil eine einzige schlechte Beobachtung die Quadratsumme ’explodieren’ lässt, die Funktionen ρ(x) und ψ(x) sind nicht beschränkt. Huber’s Vorschlag (1964) ist c ψ(x) = min(c, max(x, −c)) = x min(1, ) |x| c ist eine ’tuning’ Konstante. Im eindimensionalen Lokationsproblem (θ2 = 0)sind der Median und der gestutzte Mittelwert (α-trimmed mean, die α% grösten und kleinsten Beobachtung werden weggelassen) einfache robuste Alternative zum Ausreisser empfindlichen Mittelwert. In der einfachen oder multiplen Regression sind nicht nur Aussreisser in der Zielvariable ein Problem, sondern auch Ausreisser in den explikativen Variablen, die sogenannten Hebelpunkte (leverage points). Die Mitschrift gibt diesbezüglich spektakuläre Beispiele. Eine gute Alternative zur LS-Methode ist der Least Median of Squares (LMS) Schätzer, welcher den Medianwert der ri2 über θ minimiert. Die Software R bietet u.A. die robuste Prozedur lqs. Eine graphische Darstellung der Daten ist auf jeden Fall empfehlenswert, was im zweideimensionalen Fall recht einfach ist. Ausreisser und Hebelpunkte können Fehler (Tipp oder Messfehler), richtige aber ungewöhliche Beobachtungen sein oder sogar potentielle bahnbrechende Entdeckungen. Sie müssen wann immer möglich identifiziert und entsprechend behandelt werden. 15 Kapitel 3 Grundzüge der linearen Algebra 3.1 Notation und Grundbegriffe In diesem Kapitel werden die für die multivariate Statistik wichtigsten Begriffe und Sätze zusammengestellt. Die lineare Algebra ist auch in der Modellierung der Populationsdynamik wichtig. Es wird fast gänzlich auf Beweise verzichtet. Wir betrachten den n-dimensionalen Raum Rn . Vektoren werden mit kleinen lateinischen Buchstaben bezeichnet und Skalare (hier reelle Zahlen) mit griechischen Buchstaben. Ein Vektor x ∈ Rn ist somit ein ’n-Tupel’ von Zahlen x = (ξ1 , ξ2 , . . . , ξn )t . Grundsätzlich werden hier Vektoren als Spaltenvektoren aufgefasst, werden jedoch zur Vereinfachung des Schreibens als transponierte Zeilenvektoren (mit dem Superskript t ) geschrieben. Vektoren kann man komponentenweise addieren und komponentenweise mit einem Skalaren multiplizieren, gemäss x+y = (ξ1 + η1 , ξ2 + η2 , . . . ξn + ηn )t λx = (λξ1 , λξ2 , . . . , λξn )t (3.1) Das Skalarprodukt von zwei Vektoren ist definiert mittels x · y =< x, y >= n X ξi ηi ∈ R i=1 Zwei Vektoren x und y heissen p orthogonal falls x · y = 0. Die Norm oder Länge von Pn √ 2 definiert. Eine Menge von p Vektoren x wird mit | x |= < x, x > = ξ i=1 i {x1 , x2 , . . . xp } ⊂ Rn heisst linear unabhängig falls eine lineare Kombination, welche den Nullvektor ergibt, d.h. p X λi xi = 0 i=1 notwendigerweise die triviale lineare Kombination ist, d.h. λi = 0 für alle i. Man merke sich, dass der Vektor 0 den Nullvektor bezeichnet, dessen Komponente alle gleich der Zahl Null (0) sind. Ein Hauptsatz besagt, dass in Rn höchstens n Vektoren linear unbhängig sein können, welche dann eine Basis ei , i = 1, 2 . . . n bilden. Jeder Vektor kann eineindeutig als lineare Kombination von Basisvektoren geschrieben werden, d.h. n X x= ξi ei i=1 16 Die ξi heissen Koordinaten von x bezüglich der Basis ei . Wir werden fast ausschliesslich mit der kanonischen Basis arbeiten, in welcher die Komponenten von ei alle gleich Null sind, bis auf die i-te, welche 1 ist. Alle Vektoren dieser Basis sind zueinander orthogonal und alle haben die Länge 1, eine solche Basis heisst orthonormiert. In R3 kann man aus der kanonischen Basis durch Rotationen beliebig viele andere orthonormierten gleichorientierte Basen (rechte oder linke Hand Orientierung) erzeugen. 3.2 Lineare Abbildungen und ihre Matrizen Wir betrachten eine Abbildung von Rm nach Rn f : x ∈ Rm → y = f (x) ∈ Rn Die Abbildung heisst linear falls f (λ1 x1 + λ2 x2 ) = λ1 f (x1 ) + λ2 f (x2 ) für alle x1 , x2 , λ1 , λ2 . Inbesondere gilt f (0) = 0 (Achtung! der erste 0 ist in Rm und der zweite in Rn ). Wir haben die Basis {e1 , e2 , . . . em } in Rm und die Basis {f1 , f2 . . . fn } in Rn . Wir haben wegen der Linearität der Abbildung f folgende Zerlegungen nach den Basisvektoren: x y f (ej ) f (x) = = = m X j=1 n X ξj ej ηi fi i=1 n X αij fi i=1 m X ξj ej ) = = f( = = n X j=1 i=1 n X ξj f (ej ) j=1 j=1 m X ξj m X αij fi ηi fi (3.2) i=1 Wegen der Eindeutigkeit der Zerlegung nach den Basisvektoren haben wir ηi = m X αij ξj (3.3) j=1 Die Koeffizienten αij sind die Koordinaten in der Basis {fi , i = 1, 2 . . . n} des Bildes unter der Abbildung f des j-ten Basisvektors ej . Diese αij sind von der Wahl der zwei Basen abhängig. Diese nm Koeffizienten werden in einer Matrix A mit n Zeilen und m Spalten zusammengefasst, was oft mit der Notation A n×m bezeichnet wird. Man merke sich die umgekehrte Reihenfolge der Indizes, die Abbildung geht von m nach n dimensionalen Räumen, während die Matrix vom Typ n × m ist. Matrizen werden mit grossen fett gedruckten lateinischen Buchstaben bezeichnet. 17 A nm α11 α12 α21 α22 = ... ... αn1 αn2 ... ... ... ... α1m α2m ... αnm Die Gleichung (3.3) lässt sich als Skalarprodukt der i-ten Zeile der Matrix A mit dem Spaltenvektor x = (ξ1 , ξ2 , . . . ξm )t darstellen. Gelegentlich wird die Notation A n×m = (αij ) verwendet. Wenn man y als Spaltenvektor (η1 , η2 , . . . ηn )t betrachtet, kann man schreiben y = Ax Dieselbe Abbildung f kann, je nach Wahl der Basen, mit verschiedenen ’ähnlichen’ Matrizen dargestellt werden. Die Kunst wird oft darin bestehen, die Basen so zu wählen, dass die Matrix möglichst einfach wird. Die geometrische Natur der Abbildung (zum Beispiel Projektion, Spiegelung, Drehung usw.) ist intrinsisch, während Basen und Koordinaten nur zum eigentlichen Rechnen verwendet werden. Für eine Abbildung f von Rn nach Rn ist die zugehörige Matrix quadratisch, d.h. m = n. In einem solchen Fall wird meistens dieselbe Basis im Definitionsbereich wie auch im Bildbereich zugrunde gelegt. Ein wichtiger Spezialfall ist die identische Abbildung id : x ∈ Rn → id(x) = x ∈ Rn . Die zugehörige Matrix wird mit I n bezeichnet (oft wird der Index n nicht angegeben, wenn die Dimension aus dem Kontext klar ist). Diese sogenannte Einheitsmatrix hat 1 in der Diagonale und 0 ausserhalb, d.h. 1 0 ... 0 0 1 ... 0 In = .. .. ... ... 0 0 ... 1 Zwei Matrizen vom selben Typ A n×m = (αij ) und B n×m = (βij ) können komponentenweise addiert werden, um eine neue Matrix C n×m zu erhalten, und zwar gemäss: C n×m = (γij ) = (αij + βij ) Die Multiplikation einer Matrix mit einem Skalar wird ebenfalls komponentenweise definiert, d.h. An×m = (λαij ) λA Wir betrachten nun die Verkettung g ◦ f von zwei linearen Abbildungen f und g, mit zugehörigen Matrizen A n×m und B p×n bezüglich der Basen {e1 , . . . em }, {f1 . . . fn }, {g1 . . . gp } f g x ∈ Rm → y ∈ Rn → g(y) = g(f (x)) = (g ◦ f )(x) ∈ Rp Wie man leicht sieht, ist die Abbildung h = g ◦ f ebenfalls eine lineare Abbildung von Rm nach Rp , also g ◦ f : Rm → Rp , mit Matrix Cp×m = (γij ). Zweimalige Anwendung der obigen Überlegungen führt zur wichtigen Relation γij = n X βik αkj i = 1, 2 . . . p, j = 1, 2, . . . m k=1 Das ij-te Element von C p×m ist somit das Skalarprodukt der i-ten Zeile von B p×n mit der j-ten Spalte von A n×m . Man schreibt das als Matrixprodukt C p×m = B p×nA n×m 18 Man merke sich, dass die Multiplikation von Matrizen nicht immer möglich ist: wenn m 6= n 6= p ist AB nicht einmal definiert. Ferner, auch wenn m = n = p ist i.A B A 6= AB Die Matrixmultiplikation ist somit in der Regel nicht kommutativ. Zum Beispiel in der Ebene: Drehen und dann Spiegeln führt nicht zum selben Resultat wie zuerst Spiegeln und dann drehen. Wenn aus dem Kontext die Dimensionen ersichtlich sind, wird der Typ der Matrix mit dem Subskript n×m nicht angegeben. 3.3 Inverse einer Matrix Wir betrachten eine bijektive lineare Abbildung f : Rn → Rn , d.h. zu jedem y gibt es ein x mit y = f (x) (surjektiv) und wenn f (x1 ) = f (x2 ) so ist zwangsläufig x1 = x2 (injektiv). Die Abbildung f hat somit eine Umkehrabbildung f −1 . Nach Definition ist f ◦ f −1 = f −1 ◦ f die identische Abbildung id. Man verifiziert leicht, dass f −1 ebenfalls linear ist. Die zugehörigen quadratischen Matrizen seien A und A −1 . Die Matrix A heisst invertierbar oder regulär mit Inverse A −1 . Dann gilt AA −1 = A −1A = I Das lineare Gleichungssystem Ax = y hat die Lösung y = A −1 x Die Bestimmung der Inverse einer Matrix ist somit äquivalent zum Lösen eines Gleichungssytems. Dies wird numerisch mit dem Gauss’schen Algorithmus gemacht und wird als Prozedur in R angeboten. Für zwei reguläre Matrizen A und B vom selben Typ n × n ist das Produkt wieder regulär und es gilt BA )−1 = A −1B −1 (B Dieser Sachverhalt ist auf Grund der Interpretation mit den zugehörigen linearen Abbildungen trivial. Zwei Matrizen A n×m und à n×m heissen ähnlich, wenn es zwei reguläre Matrizen T n×n und S m×m mit à n×m = T −1 n×nA n×mS m× m gibt. Zwei ähnliche Matrizen stellen dieselbe Abbildung f : Rm → Rn bezüglich verschiedener Basen in Definitions-und Wertebereichen dar. Der Rang einer Matrix ist die maximale Anzahl linear unabhängiger Spaltenvektoren. Dies ist auch die Dimension des Bildraumes. Man kann zeigen, dass der Spaltenrang gleich dem Zeilenrang ist. Eine quadratische n × n Matrix A ist reA) = n. Jeder quadratischen gulär genau dann wenn sie vollen Rang hat, d.h. Rang(A A), n × n Matrix A kann eine Zahl zugeordnet werden, die Determinante von A , det(A welche Null (0) ist, genau dann wenn die Matrix nicht regulär ist (singulär). Die Determinante der Einheitsmatrix ist 1. Die Beziehung AB ) = det(A A) det(B B) det(A ist wichtig und gilt für eine beliebige Anzahl Produkt-Terme. Daraus folgt, dass 1 A−1 ) = det(A det(A A) und dass, die Determinanten von zwei ähnlichen Matrizen gleich sind. Ferner ist die Determinante einer oberen oder unteren Dreiecksmatrix gleich dem Produkt der Diagonalelementen. Der berühmte und einfache Algorithmus von 19 Gauss transformiert iterativ jede quadratische Matrix auf eine ähnliche obere Dreiecksmatrix. Für eine 2 × 2 Matrix A α11 α12 A= α21 α22 gilt A) = α11 α22 − α12 α21 det(A und A −1 = 1 A) det(A α22 −α21 −α12 α11 Man kann auch Formeln für den n-dimensionalen Fall angeben, welche aber i.A. numerisch unbrauchbar sind und man verwendet stattdessen den Gausschen AlgoA) und A −1 . rithmus, wie zum Beispiel in R für die Berechnung von det(A 3.4 Die Transponierte einer Matrix Wir betrachten die durch die Matrix A definierte lineare Abbildung (bezüglich der kanonischen Basen) A n×m : xm×1 ∈ Rm → y = A n×m xm×1 ∈ Rn Durch vertauschen von Spalten und Zeilen von A n×m erhalten wir eine m×n Matrix, die Transponierte von A , welche mit A tm×n , oder kurz A t , bezeichnet wird. Es gilt t (αji ) = (αij ) und wir können die transponierte lineare Abbildung definieren: Rm 3 x = A t y ← Rn 3 y Wir haben ein Skalarprodukt in Rm und ein zweites Skalarprodukt in Rn , welche mit I und II identifiziert werden. Nach Definition des Skalarproduktes und der Transponierten bezüglich der kanonischen Basen haben wir für beliebige x1 ∈ Rm und y1 ∈ Rn sofort die Beziehung < A x1 , y1 >II =< x1 , A t y1 >I Ferner haben wir mit zwei multiplizierbaren Matrizen B p×n , A n×m , drei Räumen Rm , Rn , Rp und drei Skarprodukten I,II,III und beliebige x1 ∈ Rn , z1 ∈ Rp die Relationen < BA BAx1 , z1 >III =< A x1 , B t z1 >II =< x1 , A tB t z1 >I Mit anderen Worten gilt die wichtige Relation BA (BA BA)t = A tB t Eine quadratische Matrix A heisst symmetrisch genau dann wenn A t = A . Alle Diagonalmatrizen und insbesondere die Einheitsmatrix sind symmetrisch wie die in der multivariaten Statistik wichtigen Kovarianzmatrizen. Durch Transponieren der Identität AA −1 = I erhalten wir wegen I t = I A−1 )tA t = I (A 20 was äquivalent ist zu At )−1 = (A A−1 )t (A At ) = det(A A). Falls A symmetrisch ist, so auch A −1 . Zudem gilt det(A Eine quadratische Matrix A heisst orthogonal genau dann wenn A t A = AA t = I oder wenn A−1 = At Für orthogonale Matrizen ist die Berechnung der Inverse eine triviale Operation. Orthogonalen Matrizen sind deshalb wichtig, weil sie Skalarprodukt und damit Länge invariant lassen, nämlich < Ax1 , Ax2 >=< x1 , AtAx2 >=< x1 , x2 > Rotationen werden somit mit orthogonalen Matrizen dargestellt. In der Ebene R2 und bezüglich der Basis {e1 = (0, 1)t , e2 = (0, 1)t } wird die Drehung um den Winkel φ mit der 2 × 2 orthogonalen Matrix cos(φ) − sin(φ) R (φ) = sin(φ) cos(φ) dargestellt. 3.5 Eigenwerte und Eigenvektoren Wir betrachten eine quadratische n×n Matrix A. Der Vektor x heisst Eigenvektor von A zum Eigenwert λ genau dann wenn A − λII )x = 0 A x = λx oder (A Der Nullvektor x = 0 ist offensichtlich Eigenvektor für jedes λ. Die Definition ist somit nur für x 6= 0 interessant, das heisst entweder ist λ = 0 Eigenwert und es gibt x 6= 0 mit A x = 0 (x ist im sogenannten Kern von A ), oder λ 6= 0 ist Eigenwert und A − λII )x = 0 . A − λII muss singulär sein, damit wir ein x 6= 0 finden können, mit (A Wir brauchen somit die Bedingung A − λII ) = 0 det(A Diese Bedingung liefert ein Polynom n-ten Grades mit λ als Nullstelle, i.A eine komplexe Zahl. Wie man leicht sieht sind die Eigenwerte von zwei ähnlichen quadratischen Matrizen gleich. Die Eigenwerte sind somit unabhängig von der Wahl der Basis. Die Charakterisierung von Eigenwerten und Eigenvektoren ist besonders elegant, falls die Matrix A symmetrisch ist, was in der multivariaten Statistik eher die Re gel ist. In diesem Fall sind alle Eigenwerte reell (nicht unbedingt alle verschieden) und es gibt stets n orthonormierte Eigenvektoren ui mit Aui = λi ui . Indem man diese orthonormierten Eigenvektoren als Spaltenvektoren einer orthogonalen Matrix U auffasst, gelangt man zum berühmten Spektralsatz für symmetrische Matrizen A Λ = U ΛU −1 = U ΛU t = U t AU (3.4) wobei Λ eine Diagonalmatrix mit den Eigenwerten von A in der Diagonale ist. Die obige Spektralzerlegung kann auch als Summe der n × n Matrizen ui uti , welche alle den Rang 1 haben, n X A= λi ui uti (3.5) i=1 dargestellt werden. 21 3.6 Quadratische Formen Sei A eine symmetrische n × n Matrix und x ∈ Rn . Die Abbildung x ∈ Rn → Q(x) = xtA x ∈ R heisst quadratische Form in x. In der Statistik spielen die positiv-definiten Formen die Hauptrolle, für diese gilt Q(x) ≥ 0 und Q(x) = 0 nur für x = 0 . Dank dem Spektralsatz (3.4) können wir eine orthogonale Koordinaten-Transformation x = U y durchführen und wir erhalten xt A x = y t U t A U y = y t Λ y = n X λi yi2 i=1 Falls A positiv-definit ist, müssen daher alle Eigenwerte positiv sein. Ohne Beschränkung der Allgemeinheit werden wir λ1 ≥ λ2 . . . ≥ λn > 0 annehmen. In vielen Anwendungen muss man die Extremalwerte von quadratischen Formen unter Nebenbedingungen bestimmen, zum Beispiel: 1. Maximiere xtA x unter der Bedingung | x |= 1. Nach dem obigen ist es klar, dass der Eigenvektor x1 zum grössten Eigenwert λ1 die Lösung ist. 2. Maximiere xtAx unter den Bedingungen | x |= 1 und x ist orthogonal zu x1 . Wiederum ist es klar, dass der Eigenvektor x2 zum zweitgrössten Eigenwert λ2 die Lösung ist. 3. Maximiere xtA x unter den Bedingungen | x |= 1 und x ist orthogonal zu x1 und x2 . Die Lösung ist x = x3 , Eigenvektor zum Eigenwert λ3 , usw. 3.7 Orthogonale Projektion Wir betrachten den Rn und einen Teilraum E ⊂ Rn davon, der von p linear unabhängigen Vektoren {x1 , x2 , . . . xp } ⊂ Rn aufgespanntPwird. Jeder Vektor e ∈ E p i st somit eine lineare Kombination der xi , also e = i=1 αi xi . Wir wollen Abbildungen beschreiben, welche der orthogonalen Projektion auf den Teilraum E entsprechen, zum Beispiel im 3- dimensionalen Raum die orthogonale Projektion auf eine Ebene (die den Nullpunkt enthält). Wir betrachten die zugehörige Matrix P P : x ∈ Rn → P x ∈ E ⊂ Rn Ein Vektor x, der in E ist, bleibt unter der Projektion stehend, also P x = x, P x) = P 2 x = P x, und wir haben die wichtige falls x ∈ E. Weil P x ∈ E gilt P (P P Eigenschaft, dass idempotent ist, d.h. P2 =P Ferner kann jeder Vektor x in eine Komponente x1 ∈ E und eine Komponente x2 ∈ E⊥ orthogonal zu E zerlegt werden, analog für y. Dann gilt < P x, y > = = = = = < P (x1 + x2 ), y1 + y2 >=< P x1 + P x2 , y1 + y2 > < P x1 + 0 , y1 > + < P x1 , y2 > < P x1 , y1 > + < P x1 , y2 > < x1 , y1 > + < x1 , P y1 > < x1 + x2 , P y1 + P y2 >=< x, P y > 22 Somit gilt < P x, y >=< x, P t y >=< x, P y > und P ist symmetrisch, Pt =P Eine Matrix P stellt eine orthogonale Projektion auf den Teilraum E = P (Rn ) P 2 = P ) und symmetrisch (Bildraum von P ) dar, genau dann wenn sie idempotent (P t P = P ) ist. (P 3.8 Lineare Modelle und Least Squares In diesem Unterabschnitt weichen wir von unserer Notation ein bisschen ab, damit sie zu der am meisten verwendeten Notation in der Statistik passt. Wir betrachten n Beobachtungen yi (i = 1, 2 . . . n) einer Zielvariablen und die zugehörigen n Beobachtungen von p-dimensionalen Vektoren xi = (xi1 , xi2 , . . . xip )t , i = 1, 2 . . . n, welche p explikative Variablen darstellen. Wir postulieren einen linearen Zusammenhang zwischen yi und xi , d.h. yi = p X xik βk + εi = xti b + εi k=1 b = (β1 , β2 , . . . βp )t ∈ Rp ist der Vektor der p unbekannten Parameter βk und εi sind die zufälligen Abweichungen vom Modell, welche oft als normal verteilt mit Erwartungswert 0 und konstanter Varianz σ 2 vorausgesetzt werden. Wir definieren den Beobachtungsvektor der Zielvariable Yn×1 = (y1 , y2 , . . . yn )t und die n × p Design Matrix X n×p , deren i-te Zeile aus den explikativen Variablen der i-ten Beobachtung besteht und somit gleich xti = (xi1 , xi2 , . . . xip ) ist. In der Matrix-Schreibweise kann das lineare Modell als Yn×1 = X n×p bp×1 + rn×1 geschrieben werden, wobei der Vektor r aus den n theoretischen Residuen εi besteht (die nicht beobachtbar sind). Für jede Wahl von b bekommen wir eine Prognose Ŷ (b) = X b und einen empirischen Residuen-Vektor r(b) = Y − Ŷ (b). Alle Prognosen liegen im p dimensionalen Teilraum E von Rn , welcher von den Spalten von X aufgespannt wird. Ohne Beschränkung der Allgemeinheit setzen wir voraus, dass die Spalten von X linear unabhängig sind (ansonsten könnte eine explikative Variable als lineare Kombination der übrigen geschrieben werden). Die Methode der kleinsten Quadrate besteht darin, b so zu bestimmen, dass | r(b) |2 minimal wird. Diese Schätzung b̂ von b ist auf Grund der geometrischen Interpretation so, dass die entsprechende Prognose Ŷ (b̂) die orthogonale Projektion P von Y auf den Teilraum E ist. Nun gilt X tX )−1X t P = X (X (3.6) In der Tat verifiziert man leicht die Beziehungen P t = P , P 2 = P und P X = X . X tX ist symmetrisch und invertierbar, weil X nach Voraussetzung vollen Rang hat. In den meisten Anwendungen besteht die erste Spalte aus dem Vektor 1 (alle n Komponenten sind 1 ). β1 heisst Achsenabschnitt (intercept term). Nach Konstruktion ist der Residuen Vektor r = Y − Ŷ orthogonal zu allen Spalten von X , insbesondere zur ersten, was impliziert, dass die Summe der Residuen null ist (i.A. falsch!). Ferner haben wir X tX )−1X t Y Ŷ = X b̂ = P Y = X (X Multiplikation von links mit X t ergibt X tX b̂ = X t Y 23 (3.7) und somit die kleinste Quadrat Schätzung X tX )−1X t Y b̂ = (X (3.8) Falls der Residuen Vektor multivariat normalverteilt mit Erwartungswert 0 und Varianz-Kovarianz Matrix σ 2I n (siehe nächstes Kapitel) ist, kann man zeigen, dass man eine verzerrungsfreie Schätzung der residuellen Varianz mit Pn 2 r σ̂ 2 = i=1 i n−p erhält und dass die Varianz-Kovarianz Matrix Σ b̂ von b̂ mit X tX )−1 Σ b̂ = σ̂ 2 (X geschätzt werden kann. 24 Kapitel 4 Singulärwertzerlegung: SVD 4.1 Hauptsatz SVD steht für ’Singular Value Decomposition’. Dieses Verfahren verallgmeinert die Spektralzerlegung auf nicht quadratische Matrizen X n×p . In vielen Anwendungen entsprechen die n Zeilen von X oft n Beobachtungen von p Variablen (daher n ≥ p i.A.). Dieses Verfahren wurde u.A. von H. H. Golub (1970) entwickelt und spielt heute in der numerischen Mathematik, in der multivariaten Statistik und in der Bildverarbeitung (Datenkompression) eine sehr wichtige Rolle. X ) = r ≤ p. Die p × p Matrix X tX Sei X eine n × p Matrix mit Rang(X hat ebenfalls Rang r. Sie ist offensichtlich symmetrisch und positiv-definit (weil y tX tX y = ut u ≥ 0 mit u = X y). Sie hat somit r strikt positive Eigenwerte und die Zahl 0 als (p − r)-facher Eigenwert, was wir mit 2 σ12 ≥ σ22 ≥ . . . σr2 > σr+1 = . . . σp2 = 0 festlegen. Sei V p×p die orthogonale Matrix, deren Spalten die orthonormierten Eigenvektoren von X tX sind. Wir zerlegen diese Matrix V in ihre ersten r Spalten und ihre letzten (p − r) Spalten, was wir als V r | V p−r ] V p×p = [V schreiben. V r ist eine p × r Matrix und V p−r eine p × (p − r) Matrix. Dank dem Spektralsatz und Einsicht in die Struktur von V erhält man X tX )V V r = Σ 2r V tr (X wobei Σ 2r eine r × r Diagonalmatrix mit den Eigenwerten σ12 , σ22 . . . σr2 in der Diagonale. Wir definieren die n × r Matrix U r := X V rΣ −1 r (4.1) U r hat orthogonale Spalten, weil t t −1 U trU r = Σ −1 r V rX X V rΣ r = I r Wir können die r n-dimensionalen Spaltenvektoren von U r zu einer orthonormierten Basis von Rn mit der n × (n − r) Matrix U n−r erweitern U r | U n−r ] U = [U Die Spaltenvektoren von V und U erfüllen als Eigenvektoren die folgenden Beziehungen X tX vl = σl2 vl , vl ∈ Rp , | vl |= 1 , l = 1, 2 . . . p (4.2) 25 X X t ul = σl2 ul , ul ∈ Rn , | ul |= 1 , l = 1, 2 . . . n (4.3) Pre-Multiplikation mit X in (4.2) und mit X t in (4.3) liefert wegen der Eindeutigkeit der normierten Eigenvektoren die dualen Beziehungen 1 X vl σl 1 t vl = X ul (4.4) σl Pp Pp Wir haben somit vl = σl ul und X l=1 vl vlt = l=1 σl ul vlt . Weil die vl orthonorPX p miert sind, gilt l=1 vl vlt = I p . Wir bekommen schliesslich die SVD ul = X n×p = r X σl ul vlt (4.5) l=1 Es kommt also nur auf die ersten r Singulärwerte σl > 0 und die entsprechenden Eigenvektoren an. Man merke sich, dass ul vlt ein Produkt von einer n × 1 Matrix mit einer 1 × p Matrix ist. Die resultierende n × p Matrix ul vlt hat Rang 1. Somit ist die SVD wirklich eine Verallgemeinerung der Spektralzerlegung (3.5). Wegen möglichen Zweideutigkeiten bei der Zuordung von Eigenwerten zu Eigenvektoren, ist es besser, die Formel (4.1) für die Berechnung der ul zu verwenden, als die Definition als Eigenvektoren von X X t . Man kann die SVD (4.5) auch matriziell schreiben: X n×p = U n×nΣ n×pV tp×p (4.6) Die orthogonale p × p Matrix V hat die Eigenvektoren vl von X tX als Spalten, und die orthogonale n × n Matrix U hat die Eigenvektoren ul von X X t als Spalten. Die ’pseudo-diagonal’ n × p Matrix Σ n×p ist σ1 0 0 0 ... 0 0 σ2 0 0 ... 0 Σn×p = ... ... ... ... ... 0 0 ... 0 σr ... 0 0 0 0 0 ... 0 Die numerische Berechnung der Spektralzerlegung und der SVD (wie in R) beruht auf raffinierte Algorithmen, welche von der hier gewählten rein mathematischen Darstellung ziemlich weit entfernt sind. 4.2 Least Squares Approximation von Matrizen Die Frobenius-Norm oder Euklidische Norm einer Matrix A n×p = (αij ) ist definiert als sX 2 αij || A ||= i,j B −A A) || definiert. Eine Der Abstand von zwei n × p Matrizen A und B wird mit || (B bemerkenswerte Eigenschaft der SVD ist, dass die ersten q singulären Werte σl X und singuläre Vektoren ul , vl die sogenannte beste Rang q Approximation X̂ von X X= X̂ q X σk uk vkt k=1 26 im Sinne der kleinsten Quadrate liefert (Householder und Young, 1938). Die Güte der Approximation kann mit dem Koeffizienten Pq X ||2 σi2 || X̂ ρ = Pi=1 = r 2 || X ||2 i=1 σi charakterisiert werden. Der relative Fehler der Rang q-Approximation ist Pr 2 X ||2 || X − X̂ k=q+1 σk P = r 2 =1−ρ || X ||2 k=1 σk 4.3 Beispiele Zur Illustration betrachten wir ein kleines Beispiel (alle Zahlen auf 3 Dezimalstellen gerundet) 3 7 2 4 −6 −2 X = 5 5 4 6 4 −3 Dann 86 X tX = 46 0 46 0 126 34 34 33 Mit den Eigenwerten (σ12 , σ22 , σ32 )t = (162.561, 64.467, 17.972). Wir bekommen 12.750 0 0 0 8.029 0 Σ3 = 0 0 4.239 Die Matrix V 3 hat als Spalten die Eigenvektoren vi von X tX −0.503 0.823 0.264 V 3 = −0.836 −0.385 −0.389 −0.220 −0.417 0.882 Die orthonormierten Spaltenvektoren von V 3 sind nur bis auf das Vorzeichen eindeutig bestimmt und können somit von der verwendeten Software abhängen. Die führt zur Matrix U 3 mit den orthonormierten Spaltenvektoren ui , welche auch Eigenvektoren von X X t sind. −0.612 −0.132 −0.040 0.270 −0.802 0.383 U 3 = X V 3Σ −1 3 = −0.594 0.065 0.685 −0.447 0.579 −0.618 Die Rang 3 SVD ist 3.003 6.997 3.998 −5.996 U 3Σ 3V t3 = 5.002 5.001 6.001 3.990 2.006 −2.005 4.005 −2.997 Bis auf Rundungsfehler ist dies, wie erwartet, die Rang 3 Eingangsmatrix X . X 2 = σ1 u1 v1t + σ2 u2 v2t . Die Rang 2 Approximation ist X̂ 27 3.045 6.932 2.154 3.570 −5.365 −3.439 X2 = X̂ 4.235 6.130 1.444 6.691 2.976 −0.685 Die Güte dieser Rang 2 Approximation ist ρ= σ12 + σ22 = 0.923 σ12 + σ12 + σ32 Zum Abschluss dieses trockenen Kapitels und zur Ehre von H.G. Golub soll eine Anwendung der SVD auf die Bildverarbeitung kurz erwähnt werden. Das Originalbild hat 3 × 897 × 598 Pixel (Überlagerung von 3 Schichten: für je rot, grün, blau) und Rang 598 (Bildbreite). Das Bild ist von Auge nicht von der Rang 120 abgebildeten Approximation zu unterscheiden, die hier als Referenzbild gilt. Man stellt fest, dass man die Datenmenge um einen Faktor 5 bis 10 fast ohne Qualitätsverlust reduzieren kann, mit einer Reduktion um den Faktor 50 ist die Mustererkennung noch gut gewährleistet. Abbildung 4.1: Rang 12, 50, 120-Approximationen vom einem Rang 598-Bild 4.4 Biplots Wir werden später die SVD für die Darstellung multivariater Daten mit sogenannten Biplots verwenden. Die dazu notwendige Theorie sei hier kurz dargestellt. Wir interpretieren die n×p Matrix X als p-dimensionale Beobachtungen auf n Individuen (eine Zeile von X stellt also eine solche Beobachtung dar). Ohne Beschränkung der Allgemeinheit setzen wir vollen Rang r = p voraus, meistens ist auch n viel grösser als p. Wir verwenden die SVD X = p X σl ul vlt = (ξij ), i = 1, 2 . . . n, j = 1, 2 . . . p l=1 28 Wir schreiben ul = (µ1l , µ2l , . . . µnl )t ∈ Rn und vl = (η1l , η2l , . . . ηpl )t ∈ Rp und erinnere sich daran, dass die ul ∈ Rn und vl ∈ Rp orthonormiert sind. Ein Individuum wird als Punkt xr = (ξr1 , ξr2 , . . . ξrp )t in Rp (r = 1, 2, . . . n) interpretiert und eine beobachtete Variable yj = (ξ1j , ξ2j , . . . ξnj )t als Punkt in Rn (j = 1, 2 . . . p). Die Metrik im Individuen-Raum wird mit dem Skalarprodukt < xr , xs >Rp = p X ξrk ξsk k=1 definiert. Insbesondere ist der Euklidische Abstand zwischen zwei Individuen r und √ s gleich < xr − xs , xr − xs >Rp . Analog für zwei Variablen yi und yj definiert man n X ξti ξtj < yi , yj >Rn = t=1 Wir erhalten wegen der SVD-Darstellung der ξij < xr , xs > Rp = = = p X ξrk ξsk k=1 p X p X k=1 l=1 p X p X k=1 σl µrl ηkl p X σm µsm ηkm m=1 2 σl2 µrl µsl ηkl + l=1 X σl σm µrl µsm ηkl ηkm l6=m Vertauschung der Summationsreihenfolge unter Verwendung der orthonormierten Eigenschaften p p X X ηkl = 1 ∀k ηkl ηkm = 0 ∀n 6= m k=1 k=1 führt zur wichtigen Relation < xr , xs >Rp = p X σl2 µrl µsl =< gr , gs >Rp (4.7) l=1 wobei gr = (σ1 µr1 , σ2 µr2 , . . . σp µrp ). Dies ist im Einklang mit der dualen Beziehung (4.4) X vl = σl ul : das Skalarprodukt der i-ten Zeile von X mit vl liefert die l-te Koordinate des i-ten Individuums in der Basis {v1 , v2 , . . . vp }. Wenn man in (4.7) nur die zwei grössten singulären Werte berücksichtigt, kann man jedes Individuum xr durch einen Punkt gr(1) = (σ1 µr1 , σ2 µr2 )t ∈ R2 r = 1, 2, . . . n darstellen. Diese Darstellung approximiert am besten den Abstand zwischen zwei Individuen in Rp . Die j-te Variable wird mit dem Punkt (1) hj = (ηj1 , ηj2 )t j = 1, 2, . . . p dargestellt. Diese Darstellung der Variablen liefert i.A. keine gute Approximation der Abstände zwischen Variablen. Man erhält die Rang 2 Approximation der j-ten Variable beim r-ten Individuen mit (1) ξˆrj =< gr(1) , hj >= σ1 µr1 ηj1 + σ2 µr2 ηj2 29 Die Individuen-und Variablen Plots werden in einem Biplot zusammengefügt. Man kann auch die duale Darstellung verwenden, indem jede Variable durch einen Punkt (2) hj ∈ R2 gemäss (2) hj = (σ1 η1j , σ2 η2,j )t ∈ R2 dargestellt wird. Diese Darstellung liefert die beste Approximation für den Abstand (2) zwischen Variablen. Der r-te Individuum wird mit dem Punkt gr = (µr1 , µr2 )t ∈ 2 R dargestellt. Wiederum gilt (2) ξˆrj =< gr(2) , hj >= σ1 µr1 ηj1 + σ2 µr2 ηj2 (1) (2) Man kann auch die Punkte gr und hj in einem Biplot zusammenfügen. Die Variablen-Punkte werden immer mit Pfeilen versehen. Man merke sich, dass wir mit zwei Arten von Vektoren zu tun haben, welche in verschieden Räumen definiert sind: es ist also bei der Interpretation des Abstandes zwischen andersartigen Vektoren grosse Vorsicht geboten. Gelegentlich ist es sinnvoll sogenannte illustrative Individuen oder Variablen in Biplots darzustellen. Diese Daten werden bei der eigentlichen Berechnung der ul und vl von der SVD nicht verwendet. Sei X + die t × p Matrix, welche die üblichen p- Variablen der t neuen illustrativen Individuen darstellt. Mit der dualen BeziehunX + )vl . Analog sei X + die n × s gen (4.4) haben die Individuen die Koordinaten (X Matrix der neuen s illustrativen Variablen auf die ursprüglichen n Individuen. Die X + )t ul gegeben. Koordinaten der neuen illustrativen Variablen sind dann durch (X 30 Kapitel 5 Multivariate Zufallsvariablen 5.1 Einführung Eine multivariate p-dimensionale Zufallsvariable Y ∈ Rp ist ein Vektor, dessen Komponenten reelle eindimensionale Zufallsvariablen sind, d.h. Y = (Y1 , Y2 , . . . Yp )t . Die Realisierungen werden wie üblich mit den entsprechenden kleinen Buchstaben bezeichnet, d.h. y = (y1 , y2 , . . . yn ). Wir weichen von der in den Kapiteln über lineare Algebra verwendeten Notation ab, um mit der in der statistischen Literatur am meisten verwendeten Notation im Einklang zu sein. Vektoren und Matrizen werden fett gedruckt. Die Zufallsvariablen Yk können diskrete oder kontinuierliche Ausprägungen haben. Zum Einstieg betrachten wir diskrete Zufallsvariablen. Die gemeinsame Wahrscheinlichkeitsfunktion ist Y = y) P(y1 , y2 , . . . yp ) = P(Y1 = y1 , Y2 = y2 , . . . Yp = yp ) = P(Y Sie erfüllt X P(yy ) ≥ 0 P(yy ) 1 = y Die Summe erstreckt sich über alle möglichen Realisierungen y . Eine k-dimensionale Marginale Verteilung wird mittels X PM (yi1 , yi2 , . . . yik ) = P(yy ) y ỹ definiert, wobei sich die Summe über alle Realisierungen ỹy erstreckt, deren k Komponenten mit Indizes i1, i2, . . . ik fest sind. Die bedingte Verteilung wird mittels P(yi1 , yi2 . . . yik | yj , j ∈ / {i1, i2, . . . ik}) = P(yy ) PM (yi1 , yi2 , . . . yik ) definiert. Zur Illustration betrachten wir das Münzenwerfenspiel mit n = 4 Würfen. Sei Y1 die Anzahl ’Kopf’ in den ersten zwei Würfen, und Y2 die Anzahl ’Kopf’ in den letzten drei Würfen. Man bekommt Tabelle 5.1. Für die bedingte Verteilung erhält man z.B. P(Y1 = 0 | Y2 = 2) = P(Y1 = 1 | Y2 = 2) = P(Y1 = 2 | Y2 = 2) = 31 1 16 3 8 1 2 1 3 = 1 6 Tabelle 5.1: Gemeinsame und Marginale Verteilungen Y2 Y1 0 2 1 16 1 8 1 16 3 0 Marginal von Y1 1 4 0 1 Marginal von Y2 1 2 1 16 3 16 3 16 1 16 1 2 0 1 8 3 8 3 8 1 8 1 16 1 8 1 16 1 4 Merke, dass die Summe dieser bedingten Wahrscheinlichkeiten gleich eins ist. Für kontinuierliche vektorwertige Zufallsvariablen definiert man die Wahrscheinlichkeitsdichte fY (y1 , y2 , . . . yp ) mittels der Eigenschaft Z Z Y ∈ A ⊂ Rp ) = P(Y fy (y1 , y2 , . . . yp )dy1 dy2 . . . dyp =: fY (yy )dyy A A für eine beliebige Teilmenge A von Rp . Die marginalen Verteilungen werden mit Z Y fM (yi1 , yi2 , . . . yik ) = fY (y1 , y2 , . . . yp ) dyl R(p−k) l∈{i1,i2,...ik} / definiert. Die bedingten Verteilungen analog durch f (yi1 , yi2 . . . yik | yj , j ∈ / {i1, i2, . . . ik}) = fY (y) fM (yi1 , yi2 , . . . yik ) Die Komponenten Yi von Y sind stochastisch unabhängig, wenn die gemeinsame Verteilung gleich dem Produkt der p eindimensionalen marginalen Verteilungen ist, also genau dann wenn p Y fY (y1 , y2 , . . . yp ) = fYi (yi ) l=1 und analog für den diskreten Fall. Betrachten wir zur Illustration foldendes zweidimensionales Beispiel. Die bivariate Wahrscheinlichkeitsdichte sei fY (y1 , y2 ) = 2I{(y1 ,y2 )|0<y1 <y2 <1} (y1 , y2 ) Die Indikatorvariable IA einer Menge A ist wie folgt definiert: IA (yy ) ist 1 falls y ∈ A und 0 sonst. Die Dichte ist somit null ausserhalb des Dreiecks A mit Ecken R(0, 0), (1, 1), (0, 1), innerhalb des Dreiecks ist sie konstant gleich 2. Offensichtlich ist f (y1 , y2 )dy1 dy2 = 1. Nach Definition hat man A Y Z 1 fY1 (y1 ) = 2dy2 = 2(1 − y1 ) falls 0 < y1 < 1 sonst 0 y1 Analog bekommt man Z fY2 (y2 ) = y2 2dy1 = 2y2 falls 0 < y2 < 1 sonst 0 0 Y1 und Y2 sind nicht unabhängig, weil fY (y1 , y2 ) 6= fY1 (y1 )fY2 (y2 ). Für die bedingte Verteilung erhält man z.B. 1 f (y1 | y2 ) = I{(y1 ,y2 )|0<y1 <y2 <1} (y1 , y2 ) y2 32 5.2 Erwartungswerte, Varianz- Kovarianz-Matrix, Korrelation-Matrix Wir betrachten den zufälligen Vektor Y = (Y1 , Y2 , . . . Yp ) ∈ Rp . Die Komponenten von Y haben die Erwartungswerte Z ∞ µi = E(Yi ) = xfYi (x)dx −∞ beziehungsweise µi = E(Yi ) = X xP(Yi = x) x im diskreten Fall. Der Erwartungswertvektor ist Y ) = (µ1 , µ2 , . . . µp )t = µ E(Y Die Varianz der einzelnen Komponenten ist bekanntlich V(Yi ) = E(Yi − µi )2 = E(Yi2 ) − µ2i Die Kovarianz zwischen den Komponenten i und j ist COV(Yi , Yj ) = E (Yi − µi )(Yj − µj ) = E(Yi Yj ) − µi µj = σij √ Nach Definition haben wir σii = V(Yi ). Die Standardabweichung ist σi = σii . Die Varianz-Kovarianz Matrix ΣY ist definiert als die p×p symmetrische Matrix mit Koeffizienten Σ ij = σij = σji , d.h. σ11 σ12 ... σ1p σ21 σ22 ... σ2p ΣY = ... ... ... ... σp1 σp2 ... σpp Man verifiziert leicht folgende equivalente matrizielle Definition der VarianzKovarianz-Matrix Y − µ )(Y Y − µ )t = E(Y Y Y t ) − µµ t ΣY = E(Y (5.1) Die Korrelation zwischen den Komponenten Yi und Yj ist σij COV(Yi , Yj ) = COR(Yi , Yj ) = ρij = p σ V(Yi )V(Yj ) i σj bekanntlich gilt −1 ≤ ρij ≤ 1. Die maximalen Korrelationen von −1 und +1 werden nur bei einem exakten linearen Zusammenhang zwischen Yi und Yj erreicht. Sei nun D die p×p Diagonalmatrix mit D ii = σi . Dann kann man die Korrelation-Matrix P Y mit Koeffizienten P ij = ρij als P Y = D −1ΣY D −1 (5.2) schreiben. Wir werden annehmen, dass die Varianz-Kovarianzen Matrizen ΣY vollen Rang haben und somit invertierbar sind. 33 5.3 Varianz von linearen Kombinationen Wir betrachen den zufälligen Vektor Y ∈ Rp und einen festen Vektor a ∈ Rp . Die lineare Kombination Z = a tY ∈ R ist eine eindimensionale Zufallvariable mit Erwartungswert atY ) = a t E(Y Y ) = a tµ E(Z) = E(a (5.3) und Varianz at (Y Y − µ ))2 = E(a at (Y Y − µ )(Y Y − µ )ta ) = a tΣY a V(Z) = E (a (5.4) a tΣ Y a Weil V(Z) ≥ 0 für jeden Vektor a gilt auch ≥ 0. Eine Varianz-Kovarianz Matrix ist somit positiv-definit und hat nur strikt positive Eigenwerte. Als Anwendung betrachten wir das lineare Modell Y = Xb + r und setzen voraus, dass die Komponenten ri des residuellen Vektors r ∈ Rn unabhängig sind. Zudem sei der Erwartungwert 0, d.h. E(rr ) = 0 und folglich Y ) = X b . Die Varianz der Komponenten ri sei ferner konstant gleich σ 2 . Die E(Y Varianz-Kovarianz Matrix von r ist dann Σ r = σ 2I p = Σ Y Die Least Squares Schätzung des Parameters b ist bekanntlich X tX )−1X tY b̂b = (X mit Erwartungswert X tX )−1X t E(Y Y ) = (X X tX )−1X tX b = b E(b̂b) = (X Die Schätzung b̂b ist somit biasfrei (verzerrungsfrei). Die Varianz-Kovarianz-Matrix X tX )−1 von b̂b ist wegen der Symmetrie von X tX und (X Σb̂b t = E(b̂bb̂b ) X tX )−1X tΣY X (X X tX )−1 (X X tX )−1X tI pX (X X tX )−1 = σ 2 (X 2 t −1 X X) = σ (X = Sei Y = Y − X b̂b = Y − X (X X tX )−1X tY r̂r = Y − Ŷ der empirische residuelle Vektor. Man kann zeigen, dass E(r̂r tr̂r ) = (n − p)σ 2 Die residuelle Varianz kann mit σ̂ 2 = r̂r tr̂r n−p biasfrei geschätzt werden. Der Fall einer nicht diagonalen Varianz-Kovarianz Matrix (die Beobachtungen sind korrelliert, wie z.B. in Zeitreihen oder räumlichen Prozessen) kann im Prinzip mit der Transformation −1 Y = ΣY 2 Y = X̃ X b + r̃r Ỹ −1 −1 X = ΣY 2 X und r̃r = ΣY 2 r , auf den obigen Fall zurückgeführt werden, weil wobei X̃ Σ dann r̃r = I p . Die Hauptschwierigkeit liegt in der Modellierung und Schätzung von Σr . Die Quadratwurzel einer symmetrischen positiv-definiten Matrix kann mit dem 1 1 Spektralsatz definiert werden. Es gilt nämlich Σ− 2 = U Λ− 2 U t , mit U orthogonal, 1 1 Λ diagonal mit Diagonalelementen Λii und (Λ Λ− 2 )ii = √Λ . ii 34 5.4 5.4.1 Die multivariate Normalverteilung Definition Wir betrachten den zufälligen Vektor U = (U1 , U2 , . . . Up )t , dessen Komponenten Ui unabhängig standard normal verteilt sind (Erwartungswert 0 und Varianz 1). Die Varianz-Kovarianz Matrix von U ist nach Definition U U t) = I p E(U Der Vektor U ist per Definition standard multivariat normal verteilt. Wir möchten zufällige Vektoren konstruieren, deren Komponenten normal verteilt sind und zudem eine vorgebene reguläre positiv definite Varianz-Kovarianz Matrix Σ haben. Man kann eine p × p Matrix B finden mit Σ = B B t . B ist nicht eindeutig bestimmt. Wegen des Spektralsatzes gilt Σ = V ΛV t , mit V p×p orthogonal und Λ p×p diagonal mit den Eigenwerten λi von Σ in der Diagonale. Man kann zum Beispiel 1 B = V Λ 2 wählen, weil B B t = V ΛV t = Σ . Wir definieren den zufälligen Vektor Y mittels Y p×1 = µ p×1 + B p×pU p×1 wobei µ ∈ Rp und U standard multivariat normal verteilt ist. Nach Konstruktion Y ) = µ und gilt E(Y ΣY = E (BU BU )(BU BU )t ) = B E(U U U t )B B t = B I pB t = Σ Ferner sind die Komponenten von Y als lineare Kombinationen von normal verteilten Zufallvariablen ebenfalls normal verteilt. Y hat somit den vorgegebenen Erwartungswert µ, die vorgegebene Kovarianz Matrix Σ und seine Komponenten sind normal verteilt. Man schreibt µ, Σ ) Y ∼ N(µ Man kann zeigen, dass die Wahrscheinlichkeitsdichte von Y durch fY (yy ) = 1 p 1 Σ))− 2 (2π)− 2 (det(Σ 1 Y − µ )tΣ −1 (Y Y − µ )} exp{− (Y 2 (5.5) gegeben ist. Abbildung 5.1 zeigt das 3D-Bild der Dichtefunktion fY (y1 , y2 ) einer bivariaten Normalverteilung. Wie man sieht, ist es eine Verallgemeinerung der berühmten Glockenkurve von Gauss. Wegen der gewählten Korrelation ρ = 0.5 ist die Fläche nicht Rotation-symmetrisch. Abbildung 5.1: Bivariate Normalverteilung mit ρ = 2 35 Für spätere Zwecke merken wir uns folgendes Resultat Y − µY )tΣY−1 (Y Y − µY ) ∼ χ2(p) (Y (5.6) In der Tat haben wir Y − µY = BU , ΣY = B B t und daher Y − µY )Σ ΣY−1 (Y Y − µY ) = U tB t (B BB t )−1B U = U tI pU = (Y p X Ui2 i=1 und das Resultat bei der Definition der Chi-Quadrat Verteilung mit p Freiheitsgraden. 5.4.2 Bedingte Erwartungswerte und Kovarianzen Wir betrachten den normalverteilten Vektor Z ∈ Rp+q , den wir in zwei KompoX , Y )t , mit X ∈ Rp und Y ∈ Rq zerlegen. Ohne Beschränkung nenten Z = (X der Allgemeinheit bilden die ersten p Komponenten von Z den Vektor X und die letzten q Komponenten den Vektor Y , was man durch Umnumerierung immer erreichen kann. Man kann zeigen, dass diese zwei mehrdimensionalen Komponenten multivariat normal verteilt sind. Wir haben somit: µZ , ΣZ ) Z ∼ N(µ µX , ΣX ) X ∼ N(µ µY , ΣY ) Y ∼ N(µ t µX , µY ) . Die entsprechende Zerlegung der (p + q) × (p + q) Kovarianzwobei µZ = (µ Matrix von Z lautet: ΣX ΣX ,YY ΣZ = (5.7) t ΣX ΣY Y ,Y ΣX ist die p × p Kovarianz-Matrix von X , ΣY ist die q × q Kovarianz-Matrix von Y und ΣX ,YY ist die p × q Matrix der Kovarianzen zwischen den p Komponenten von X mit den q Komponenten von Y , d.h. X − µX )(Y Y − µY )t ] ΣX ,YY = E[(X Es gilt folgender wichtiger Satz: Die bedingte Verteilung von Y gegeben X ist multivariat normal verteilt, mit Erwartungswert −1 t Y ) = µY + ΣX X − µX ) EY |X X (Y Y ΣX (X ,Y (5.8) −1 t ΣY |X Y X = ΣY − ΣX ,Y Y ΣX ΣX ,Y (5.9) und Kovarianz-Matrix Die bedingte Kovarianz-Matrix hängt nicht von der speziellen Realisierung X = x Y ) eine lineare Funktion ab. Man stellt fest, dass der bedingte Erwartungswert EY |X X (Y von X , eine bemerkenswerte Eigenschaft, welche für die multivariate Normalverteilung charakteristisch ist. Wir betrachten zur Illustrierung den speziellen Fall p = q = 1 mit Z = (X1 , Y1 )t , X = X1 , Y = Y1 . Wir verwenden folgende Notation: Z ) = (µ1 , µ2 )t , E(Z ΣX = σ12 = V(X1 ), 36 ΣY = σ22 = V(Y1 ), ΣX ,YY = ρσ1 σ2 wobei ρ die Korrelation zwischen X1 und Y1 ist. Man bekommt σ12 ρσ1 σ2 ΣZ = ρσ1 σ2 σ22 1 σ22 −ρσ1 σ2 −1 ΣZ = 2 2 −ρσ1 σ2 σ12 σ1 σ2 (1 − ρ2 ) p −1 ΣZ 2 ) = σ1 σ2 1 − ρ2 . Die bivariate Dichte (5.5) ist dann und det(Σ fZ (x1 , y1 ) 1 p = 2πσ1 σ2 1 − ρ2 1 x1 − µ1 2 y1 − µ2 2 x1 − µ1 y1 − µ2 exp − ( ) )( ) + ( ) − 2ρ( 2(1 − ρ2 ) σ1 σ1 σ2 σ2 · Die bedingte Verteilung von Y1 gegeben X1 = x1 ist eine normale Verteilung mit Erwartungswert ρσ1 (x1 − µ1 ) E(Y1 | X1 = x1 ) = µ2 + σ2 und Varianz V(Y1 | X1 = x1 ) = σ22 − ρ2 σ12 wie man mit (5.8) und (5.9) leicht nachrechnet. Es gibt selbstverständlich andere multivariate Verteilungen als die multivariat normal Verteilung, welche in der Regel viel komplizierter sind und eher selten zur Anwendung kommen. 5.5 Schätzung von µY und ΣY Wir nehmen an, dass wir n stochastisch unabhängige p-dimensionale Zufallsvariablen Y i ∈ Rp haben, mit den entsprechenden Realisierungen y i . Wir definieren die Datenmatrix Y durch Y = [yy 1 | y 2 | . . . y n ]t (5.10) Y is somit eine n × p Matrix, deren i-ten Zeile der Beobachtungsvektor y i ∈ Rp ist, d.h. auch Yij = yij , die Beobachtung der j-ten Variable beim i-ten Individuum. Wir schätzen den unbekannten Erwartungswert µY , indem wir komponentenweise die empirischen Stichprobenmittelwerte berechnen, d.h. µY = (ȳ.1 , ȳ.2 , . . . ȳ.p )t µ̂ mit ȳ.k = 1 n Pn i yik . Wir können auch schreiben n µY = (µ̂1 , µˆ2 , . . . µ̂p )t = µ̂ 1X y i = ȳy n i=1 oder, mit dem speziellen n-dimensionalen Eins-Vektor 1 = (1, 1, . . . 1)t ∈ Rn , µYt = µ̂ 1 t 1Y n Y arbeiten, In vielen Anwendungen muss man mit der zentrierten Datenmatrix Ỹ welche aus Y entsteht, indem in jeder der p Spalten den entsprechen Stichprobenmittelwert subtrahiert wird, d.h. y11 − ȳ.1 y12 − ȳ.2 ... y1p − ȳ.p y21 − ȳ.1 y22 − ȳ.2 ... y2p − ȳ.p Y= Ỹ (5.11) ... ... ... ... yn1 − ȳ.1 yn2 − ȳ.2 ... ynp − ȳ.p 37 Mit der n × n Matrix M := I n − n1 11 t gilt auch Y = MY Ỹ (5.12) Die Varianz-Kovarianz Matrix wird komponentenweise mit der bekannten Formel n Σkl = Σ̂ 1 X (yik − ȳ.k )(yil − ȳ.l ) n − 1 i=1 oder (5.13) n Σ= Σ̂ 1 X µY )(yy i − µ̂ µY )t (yy i − µ̂ n − 1 i=1 (5.14) biasfrei geschätzt. Man kann die geschätzte Kovarianz auch wie folgt schreiben: Σ= Σ̂ t 1 Y Ỹ Y Ỹ n−1 (5.15) Σ sind die geschätzten Varianzen σ̂j2 = Σ̂ Σjj der p VaDie Diagonal-Elemente von Σ̂ riablen. Man schreibt oft σ̂j = sj . In vielen Anwendungen wird mit den standardiy −ȳ sierten Daten gearbeitet, d.h. yij wird mit ijsj .j ersetzt, die resultierende Matrix ∗ Y bezeichnet: wird mit Ỹ ∗ Y = Ỹ y11 −ȳ.1 s1 y21 −ȳ.1 s1 y12 −ȳ.2 s2 y22 −ȳ.2 s2 ... ... yn1 −ȳ.1 s1 yn2 −ȳ.2 s2 ... ... ... ... y1p −ȳ.p sp y2p −ȳ.p sp ... ynp −ȳ.p sp (5.16) Die Standardisierung wird vor allem dann eingesetzt, wenn die Variablen verschieD die p × p Diagonal-Matrix mit si dene Einheiten und Skalierungen haben. Sei D̂ −1 D als Diagonal-Elementen, die Inverse D̂ ist ebenfalls diagonal mit s1i als DiagonalElementen. Man verifiziert leicht, dass ∗ Y = Ỹ YD −1 Ỹ (5.17) P Y mit Elementen ρ̂ij ist wegen (5.2) Die geschätzte Korrelation-Matrix P̂ P Y = D̂ D P̂ 5.5.1 −1 ΣD̂ D Σ̂ −1 (5.18) Test auf multivariate Normalität Gemäss (5.6) ist Y − µY )tΣY−1 (Y Y − µy ) (Y Chi-Quadrat verteilt mit p Freiheitsgraden. Intuitiv kann man erwarten, dass die n Werte −1 µY )tΣ̂ ΣY (yy i − µ̂ µY ) ri2 = (yy i − µ̂ genähert χ2 (p) verteilt sind, was man mit einem Q-Q Plot leicht verifizieren kann. 38 5.5.2 Wishart’s Verteilung und Hotelling T 2 Es seien X r ∈ Rp , r = 1, 2, . . . f unabhängig multivariat normal verteilt µ r , ΣX ) X r ∼ N(µ Wir definiere die zufällige Matrix W = f X X rX tr r=1 Wenn µ r = 0 für alle r gilt, dann hat die p × p Matrix W die sogenannte zentrale Wishart Verteilung mit f Freiheitsgraden, man schreibt: W ∼ Wp (f, Σ ) (5.19) Wir verzichten hier auf die sehr komplizierte Formel der gemeinsamen Dichte der Matrix-Koeffizienten W ij (Wishart, 1928). Die Wishart-Verteilung verallgemeinert die Chi-Quadrat Verteilung insofern als für jedes c ∈ Rp folgende Eigenschaft gilt c tW c ∼ σ 2 χ2(f ) , mit σ 2 = c tc (5.20) Folgendes Resultat ist wichtig: µY , ΣY ) für i = 1, 2 . . . n dann gilt Falls Y i ∼ N(µ ΣY ∼ Wp (n − 1, ΣY ) (n − 1)Σ̂ (5.21) P Y n und Σ̂ ΣY stochastisch unabhängig. Wir haben wie µ = n1 ni=1 Y i = Ȳ Ferner sind µ̂ im univariaten Fall 1 Y n ∼ N(µ µY , ΣY ) Ȳ n Die T 2 Statistik von Hotelling ist definiert als −1 Y − µ0) Y − µ 0 )tΣ̂ ΣY (Ȳ T 2 = n(Ȳ (5.22) T 2 ist eine multivariate Verallgemeinerung des klassischen t-Tests von Student. Man kann zeigen, dass unter der Nullhypothese H0 : µY = µ0 die Test-Statistik T 2 eine F -Verteilung hat, nähmlich n−p 2 T ∼ F (p, n − p) p(n − 1) 39 (5.23) Kapitel 6 Multivariate Verfahren 6.1 Einweg multivariate Varianz-Analyse Man kann die univariaten Verfahren der Varianzanalye, ANOVA (Analysis of Variance), in der Regel ohne grosse allzu Schwierigkeiten auf den multivariaten Fall verallgemeinern, MANOVA (Multivariate Analysis of Variance). Wir werden hier nur die Einweg-Varianzanalyse behandeln (One-way MANOVA). Wir betrachten q Gruppen mit jeweils nk Beobachtungen y ik ∈ Rp (i = 1, 2 . . . nk , k = 1, 2, . . . q), die als Realisierungen von multivariaten p-dimensionalen normalverteilten zufälligen Vektoren Y ik , i = 1, 2, . . . nk , k = 1, 2 . . . q aufgefasst werden, mit Erwartungswerten µ k ∈ Rp und nach Voraussetzung gleichen Kovarianzenmatrizen Σ1 = Σ2 = . . . = Σq = Σ Die Erwartungswerte µ k werden in jeder Gruppe mit den empirischen Mittelwerten geschäzt, d.h. gemäss nk 1 X µ̂k = ȳ .k = y ik nk i=1 Die p × p Kovarianzmatrizen werden in jeder Gruppe geschätzt, und zwar mittels n Σ̂ k = k 1 X (yy ik − ȳ .k )(yy ik − ȳ .k )t nk − 1 i=1 Die gemeinsame Kovarianzmatrix Σ kann mit der gepoolten Kovarianzmatrix Σ̂ = q 1 X (nk − 1)Σ̂ k n−q k=1 Pq geschätzt werden, wobei n = k=1 nk die gesamte Anzahl Beobachtungen ist. Wir wollen die Nullhypothese der Gleichheit der Erwartungswerte überprüfen: H0 : µ 1 = µ 2 = . . . µ q = µ Unter H0 kann der gemeinsame Erwartungswert mittels q 1X µ̂ = nkȳ .k = ȳ .. n k=1 40 geschätzt werden. Die p × p Inner-Gruppen Streumatrix (Within group) ist definiert als W = (n − q)Σ̂ = q X nk X (yy ik − ȳ .k )(yy ik − ȳ .k )t k=1 i=1 Die p × p Zwischen-Gruppen Streumatrix (Between group) ist definiert als B= q X nk (ȳȳ .k − ȳ .. )(ȳȳ .k − ȳ .. )t k=1 Die p × p Gesamte Streumatrix (Total) ist definiert als T = q X nk X (yy ik − ȳ .. )(yy ik − ȳ .. )t k=1 i=1 Wie in der univariaten Einweg-Varianzanalyse verifiziert man leicht die algebraische Identität T = B +W Der extreme Fall tritt auf, wenn alle Gruppenmittelwerte gleich sind, d.h. ȳ .k ≡ ȳ .. und B = 0 (Nullmatrix). Intuitiv würde man die Nullhypothese verwerfen, wenn B stark von der Nullmatrix abweicht. Es stellt sich heraus, dass der Likelihood Ratio Test für die Nullhypothese zur folgenden Test-Statistik (‘Wilks Lambda‘) führt = W) 1 det(W = W + B) det(W det(II + B W −1 ) (6.1) W ))−1 multipliziert Die zweite Gleichung folgt, indem man oben und unten mit (det(W AB A) det(B B ) verwendet. und det(AB AB) = det(A Sinnvolle Tests können mit den Eigenwerten λ1 ≥ λ2 . . . λp der p × p Matrix B W −1 B − λW W ) = 0. konstruiert werden. Die λi sind auch Lösungen der Gleichung det(B Man kann zeigen, dass λi ≥ 0. Man hat u.A. folgende Tests zur Verfügung: 1. Wilks Λ= p Y l=1 1 1 + λl Die Null-Hypothese wird verworfen, fall Λ zu klein ist (grosse λl ). 2. Lawley-Hotelling p X λl l=1 Die Null-Hypothese wird für zu grosse Werte verworfen. 3. S.N. Roy λ1 d.h. der grösste Eigenwert, die Null-Hypothese wird für zu grosses λ1 verworfen. 4. K.C.S Pillai p X l=1 λl 1 + λl Die Null-Hypothese wird für wird für zu grosse Werte verworfen. 41 Die Verteilungen unter H0 sind äusserst kompliziert, die entsprechenden P -Werte sind aber von den meisten Software-Paketen erhältlich. Der Spezialfall von q = 2 Gruppen liefert den sogenannten Hotelling-Test für zwei Stichproben: T2 = n1 n2 (ȳȳ .2 − ȳ .1 )tΣ̂ −1 (ȳȳ .2 − ȳ .1 ) n1 + n2 (6.2) Unter der Nullhypothese H0 : µ 1 = µ 2 gilt n1 + n2 − p + 1 2 T ∼ Fp,n1 +n2 −p−1 p(n1 + n2 − 2) (6.3) Bemerkungen: • Man sollte auf jeden Fall graphische Dastellungen der einzelnen p Variablen anfertigen und eine univariate Varianzanalyse der p Variablen durchführen. • Scatter Plots (bivariate Streu-Diagramme) und Berechnung der Korrelationen sind aufschlussreich. • In der Regel führen signifikante Unterschiede der univariaten Auswertungen ebenfalls zu signifikanten Resultaten der multivariaten Analyse. • Die multivariate Auswertung kann signifikante Unterschiede zwischen den Gruppen entdecken, obwohl alle einzelnen univariaten Auswertungen keine signifikanten Differenzen zeigen. Im bivariaten Fall kann man z.B. zwei klar getrennte Punktwolken betrachten, deren Projektionen auf die KoordinatenAchsen sich weitgehend überlappen. 6.2 Multivariate Lineare Modelle Man kann die multivariate Einweg-Varianzanalyse auf allgemeine lineare Modelle erweitern. Im Abschnitt (3.8) haben wir für eine beliebige Zielvariable Y j ∈ Rn lineare Modelle der Form Y j = X b j + R j , j = 1, 2 . . . p (6.4) betrachtet. Y j ist der Spaltenvektor mit den n Beobachtungen der j-ten Zielvariable. Der Parametervektor b j für die j-te Zielvariable ist q dimensional, also b j ∈ Rq . Wir nehmen an, dass die n × q Design-Matrix X für alle Zielvariablen X ) = q. In der Einwegdieselbe ist. Wir setzen vollen Rang voraus, d.h. Rang(X Varianzanalyse sind die q Spalten von X durch die q Indikator-Variablen (mit nur 0, 1 Ausprägungen) der q Gruppen definiert. Wir definieren die q × p Parameter-Matrix B = [bb1 | b2 , . . . bp ] (6.5) Die j-te Spalte von B besteht somit aus den p Komponenten des Parametervektors b j der j-ten Zielvariable. Mit der Datenmatrix Y (5.10) und B können wir die p verschiedene lineare Modelle (6.4) mit einem einzigen multivariaten Modell elegant zusammenfassen, nähmlich Y = XB + R (6.6) 42 wobei die n × p Datenmatrix R der theoretischen Residuen analog zu Y definiert wird. Die n × n Projektionsmatrix X auf den Spaltenraum von X ist nach (3.6) X tX )−1X t P = X (X B der Parameter-Matrix B erhält man durch AnDie kleinste Quadrat-Schätzung B̂ wendung von (3.8) auf jede Komponente, d.h. : B = (X X tX )−1X tY B̂ (6.7) Prognosen und Residuen-Matrizen erhält man analog mit den Projektionen P und I n − P (Projektion auf den Teilraum orthogonal zum Spaltenraum von X ) = PY Y = (II n − P )Y Y Ŷ R R̂ (6.8) Wir definieren die p × p Error-Matrix E t Y = Y t (II n − P )2Y = R̂ R R̂ R E = Y t (II n − P )Y (6.9) Man kann zeigen, dass E regulär ist und die zentrale Wishart’s Verteilung hat: E ∼ Wp (n − q, Σ ) Die Maximum-Likelihood Schätzung der residuellen Kovarianzmatrix ΣR ist Σ= Σ̂ 1 E n (6.10) Wie im univariaten Fall ist diese Schätzung nur asymptotisch biasfrei, während 1 n−q E exakt biasfrei ist. In vielen Anwendungen möchte man wissen, ob ein vereinfachtes Modell mit den Daten verträglich ist. Zu diesem Zweck betrachtet man eine vereinfachte X 0 ) = q0 < q, die folgende Bedingung erfüllen muss: Design-Matrix X 0 mit Rang(X Der Spaltenraum von X 0 soll im Spaltenraum von X enthalten sein. Dies ist sicher der Fall, wenn X 0 durch weglassen von einzelnen Spalten von X entsteht. Im Falle der Einweg-Varianzanalyse besteht X 0 aus einer einzigen Spalte, welche lauter 1 hat. Diese Spalte ist die Summe der Spalten von X , welches in diesem Fall aus den Indikatorvariablen der Gruppen besteht. Die Projektion des kleineren Modells ist die n × n Matrix X t0X 0 )−1X t0 P 0 = X 0 (X Die entsprechende p × p Error-Matrix ist: t R0 = Y t (II n − P 0 )Y Y R0R̂ E 0 = R̂ (6.11) Wie im univariaten Fall betrachtet man die Differenz der Residuen, die sogenannte Hypothesis-Matrix H : P − P 0 )Y Y H = E 0 − E = Y t (P (6.12) Unter der Null-Hypothese, dass das kleinere Modell genügt, kann man zeigen, dass H die Wishart’s Verteilung Wp (q − q0 , Σ ) hat und unabhängig von E ist. Wegen 43 Y = E 0 . Die Maximum I n − P 0 = I n − P + P − P 0 hat man E + H = Y t (II n − P 0 )Y Likelihood Schätzung der residuellen Kovarianzmatrix unter dem kleineren Model ist demnach 1 E0 n Der Maximum Likelihood Ratio Test für X 0 versus X ist Σ0 = Σ̂ R(X X 0 |X X) = det(Σ̂ Σ0 ) − n2 det(Σ̂1 ) = E ) n2 det(E E + H) det(E (6.13) (6.14) Die Null-Hypothese wird verworfen, wenn RX 0 |X X zu klein wird: die maximale Likelihood under dem reduzierten Modell ist kleiner als die maximale Likelihood unter dem grossen Modell, oder gleichbedeutend, dass die Residuen unter dem reduzierten n Modell grösser als unter dem grossen Modell sind. Weil x 2 monoton ist, wird der folgende equivalente Test (Log-likelihhod Ratio Λ-Test von Wilks) verwendet: Λ= E) 1 det(E = E + H) det(E det(II n + H E −1 ) (6.15) welche mit E = W und H = B zu (6.1) in der Einweg Varianz-Analyse völlig analog ist. A) bezeichnet, sie ist gleich Die Spur einer p×p quadratischen Matrix A wird mitPtr(A p A) = der Summe der Diagonalelementen, d.h. tr(A i=1 A ii . Wie in der EinwegVarianzanalyse hat man u.A. foldgende Tests zur Auswahl: • Wilks Λ= E) det(E E + H) det(E • Lawley-Hotelling Spur H E −1 ) T 2 = (n − q)tr(H • Pillai’s Spur H (E E + H )−1 ) V = tr(H Wie vorhin sind die Verteilungen sehr kompliziert aber in Software-Paketen wie R verfügbar. Asymptotisch (d.h. n gross) hat man folgende Approximationen der Verteilungen: −nΛ ∼ χ2(pd) T2 ∼ χ2(pd) (n − q)V ∼ χ2(pd) wobei d = q − q0 . Diese Resultate sind im univariaten Fall p = 1 gut bekannt. Streng genommen sind diese Tests nur unter der multivariaten Normalverteilung gültig, die P-werte bleiben jedoch auch unter Abweichung von dieser Annahme aufschlussreich. Ferner sind Λ, T 2 und V asymptotisch equivalent und unterscheiden sich wenig bezüglich der Macht (power) in kleinen Stichproben. Der gewählte Ansatz hat den Nachteil, dass eine explikative Variable (Spalte von X ) für alle oder keine Zielvariable eine Rolle spielt, was man auf jeden Fall mit p univariaten Auswertungen untersucht haben muss. Aus diesem Grunde werden oft allgemeinere Null-Hypothesen der Form H0 : L tB = 0 ∈ Rs untersucht. Dies ist nur möglich falls L t die Form L t = GX hat. Die Sache wird allerdings etwas komplizierter, siehe zum Beispiel R. Christensen. 44 6.3 Hauptkomponentenanalyse Die Haupkomponentenanalyse, principal component analysis (pca), ist vorwiegend eine deskriptive Technik, um die Dimension eines Datensatzes auf wenige Variablen, die Hauptkomponenten, zu reduzieren, idealerweise auf 2 oder 3 Komponenten, die man graphisch darstellen kann. Wir beginnen mit dem theoretischen Ansatz. Wir betrachen eine Zufallsvariable Y ∈ Rp mit Erwartungswert µ und Kovarianzmatrix Σ . Wir suchen eine lineare Kombination Z = a tY P ∈ R, a ∈ Rp welche p 2 die grösste Varianz unter der natürlichen Bedingung | a | = i=1 a2i = 1 besitzt. Gemäss (5.4) soll die Varianz V(Z) = a tΣa unter | a |= 1 maximiert werden. Nach dem Abschnitt 3.6 wissen wir, dass die Lösung a1 der normierte Eigenvektor von Σ zum grössten Eigenwert λ1 ist. Die zweite Hauptkomponente Z2 = at2Y sollte unkorreliert zur ersten Hauptkomponente Z1 sein und maximale Varianz unter der Nebenbedingung | a2 |= 1 haben. Die Korrelation ist null, wenn die Kovarianz null ist, also wenn Y − µ )(a at2 (Y Y − µ )) = E a t1 (Y Y − µ )(Y Y − µ )t a 2 COV(Z1 , Z2 ) = E a t1 (Y = a t1Σa 2 = λ1a t1a 2 = 0 Mit anderen Worten ist Unkorrelierheit mit Orthogonalität equivalent. Nach Abschnitt 3.6 wissen wir, dass a 2 der normierte Eigenvektor von Σ zum zweitgrössten Eigenwert λ2 ≤ λ1 ist. Wir können das Verfahren fortsetzen und stellen fest, dass die p unkorrelierten Hauptkomponenten von den normierten und zueinander orthogonalen Eigenvektoren a i , i = 1, 2 . . . p von Σ zu den Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λp > 0 bestimmt werden, d.h. Zi = a tiY . Ferner gilt V(Zi ) = λi . Wir wollen annehmen, dass λp strikt grösser null ist, ansonsten die Kovarianzmatrix singulär ist, was impliziert, dass die Komponenten von Y linear abhängig sind. Man kann Pp auch zeigen, Pp dass die Summe der Varianzen der ursprünglichen Variablen, d.h. V(Y ) = i i=1 Pp i=1 σii , gleich Pp der Summe der Varianz der Hauptkomponenten ist, also gleich i=1 V(Zi ) = i=1 λi . Das Verfahren ersetzt in einem gewissen Sinne ohne Informationsverlust die originalen Komponenten Yi von Y durch unkorrellierte Komponenten Zi mit maximaler Varianz. Wir definieren die p × p Matrix a1 | a 2 | . . . a p ] A = [a Die i-te Spalte von A ist somit der Eigenvektor a i . Der Vektor der Hauptkomponenten ist Z = A tY . In den Anwendungen stehen nur die Matrizen der Rohdaten Y (5.10), der zen∗ Y (5.11) oder der standardisierten Daten Ỹ Y (5.17) zur Verfügung. trierten Daten Ỹ ∗ Y und Ỹ Y . Idealerweise sollten die Variablen Yi alle quanMan arbeitet meistens mit Ỹ titativ sein und homogene Einheiten besitzen (z.B. Längen in [cm], Gewichte in [kg], dimensionlose %) und einigermassen vergleichbare Grössen haben. Man verwendet Σ (5.14) und erhält die geschätzten Eigenwerte λ̂i , die geschätzte Kovarianz Matrix Σ̂ ai und analog die Matrix  A. Sei Λ̂ Λ die p×p Diagonaldie geschätzten Eigenvektoren â t Σ =  AΛ̂ Λ A. matrix mit den λ̂i als Diagonalelementen. Nach dem Spektralsatz gilt Σ̂ Man definiert die n × p Datenmatrix der empirischen Hauptkomponenten gemäss: Z = Ỹ Y A Z̃ (6.16) Die Spalten dieser Matrix enthalten die Hauptkomponenten für die n BeobachtunA hat gen, welche auch Scores genannt werden. Wegen der Orthogonalität von  t Y Z A man die Umkehrformel Ỹ = Z̃ . Eine graphische Darstellung (sogenannter screeP k plot) von Ik = i=1 Pp i=1 λi λi gegen k kann bei der Wahl der wichtigsten Hauptkomponen 45 hilfreich sei. Wenn die ersten grössten Eigenwerte einen bedeutenden Anteil der Varianz ’erklären’ (z.B. I1 ≈ 0.5, I2 ≈ 0.8) , so ist es aufschlussreich, bivariate oder 3-D Streudiagramme dieser Hauptkomponenten zu machen. Im Falle einer multivariaten Varianzanalyse kann die Gruppezugehörigkeit als Plotsymbol benutzt werden und die Gültigkeit der MANOVA Tests mit einer nicht parametrischen Auswertung der Hauptkomponenten überprüft werden. Wenn die Varianzen der originalen Variable Yi stark verschieden sind, werden die Hauptkomponenten vorwiegend von den Variablen mit den grössten Varianzen bestimmt, was nicht unbedingt sinnvoll ist, auch wenn die Einheiten homogen sind. Aus diesem Grund werden die Daten oft standardisiert: man arbeitet dann mit der ∗ Y und mit der Korrelationsmatrix P̂ P. Datenmatrix Ỹ Für die Tabellierung und Interpretation der Hauptkomponenten werden oft die p ∗ a a Eigenvektoren gemäss â i = â i λ̂i skaliert, man verwendet somit die Matrix ∗ 1 ∗ A =  AΛ̂ Λ 2 . Man hat | â a∗i |2 = λi . Die Koeffizienten von  A , welche zu den wichtigen  Hauptkomponenten gehören (grosse λ̂i ) sind tendenziell auch grösser, was intuitiv zweckmässig ist. Die normierte n × p Hauptkomponenten-Matrix ist definiert als − 12 ∗ Z = Z̃ ZΛ̂ Λ Z̃ − 12 Y AΛ̂ Λ = Ỹ Die geschätzte Kovarianz-Matrix dieser normierten Hauptkomponenten ist ∗ ∗ 1 Z )tZ̃ Z (Z̃ n−1 −1 t t −1 1 Λ 2  A Ỹ Y Ỹ Y AΛ̂ Λ 2 Λ̂ n−1 −1 t −1 1 Λ 2  A (n − 1)Σ̂ Σ AΛ̂ Λ 2 Λ̂ n−1 = = −1 ΛΛ̂ Λ Λ 2 Λ̂ = Λ̂ = Ip − 12 Diese normierten Hauptkomponenten sind somit unkorreliert und haben empirische Varianzen gleich 1, was ihre Bezeichnung rechtfertigt. ∗ ∗ Y Ỹ ∗ Z Z̃ Z ( A )t = Z̃ Y A = Ỹ (6.17) ∗ Man kann also die originalen Daten mit den standardisierten Hauptkomponenten ∗ A , welche aus den sogenannten component loadings besteht, und der Matrix  rekonstruieren. Falls man mit den standardisierten Variablen und der Korrelations∗ ∗ Y und Σ̂ Σ = P̂ P ), kann man die Matrix  A der skamatrix arbeitet(d.h. mit Ỹ P auch als Korrelationsmatrix zwischen den lierten Eigenvektoren von P̂ Hauptkomponenten und den originalen Variablen interpretieren. Die zugehörigen empirischen Kovarianzen sind durch ∗ 1 Y )tZ̃ Z (Ỹ n−1 gegeben. Man rechnet nach ∗ ∗ ∗ 1 1 Y )tZ̃ Z = Y )tỸ Y  A (Ỹ (Ỹ n−1 n−1 P  A = P̂ AΛ̂ Λ =  46 Die empirische Varianz der Ỹi∗ ist nach Konstruktion 1 und die empirische Varianz der Hauptkomponente Z̃j ist λ̂j . Nach q der obigen Formel ist die Kovarianz âij λ̂j und ∗ âij λ̂j A die gesuchte die Korrelation daher √ = âij λˆj . Dies bedeutet aber, dass  1· λ̂j Matrix der Korrelationen ist (NB: dies ist keine Korrelationsmatrix zwischen den Komponenten eines Zufallsvektors, sie ist nicht einmal symmetrisch!). Es ist dem aufmerksamen Leser sicher nicht entgangen, dass die Hauptkomponentenanalyse der zentrierten Daten sehr viel Ähnlichkeit mit der SVD Zerleσi2 Y hat, u.A. gilt n−1 gung von Ỹ = λi und die Eigenvektoren vl in der SVD sind die a l . Ferner, wegen der dualen Beziehung (4.4) in der SVD und der Definition Z = Ỹ Y A sieht man, dass Ỹ Yâ al = σl ul , wobei in der der Hauptkomponenten mittels Z̃ t YỸ Y ist, welcher im Biplot verwendet wird. In der SVD ul ∈ Rn Eigenvektor von Ỹ Tat wird in R die Berechnung der Hauptkomponenten über eine SVD auf Grund der numerischen Effizienz und Stabilität durchgeführt. Die SVD ist aber eine rein geometrische Angelegenheit ohne Wahrscheinlichkeitstheoretischen Hintergrund wie die Hauptkomponentenanalyse. Die Hauptschwierigkeit bei der Hauptkomponenanalyse ist die fachgerechte Interpretation der Hauptkomponenten, was aber kein statistisches Problem ist. 6.4 Diskriminanzanalyse Wir nehmen an, wie in der Varianzanalyse, dass gewisse Gruppen bekannt sind (z.B. Spezies, krank v. gesund, Prüfung bestanden ja v. nein). Im Gegensatz zur Varianzanalyse geht es hier darum eine neue Beobachtung auf Grund seiner Markmale einer der Gruppen zuzuordnen, z.B. sollte ein Patient auf Grund von Laboruntersuchungen als krank oder gesund eingeteilt werden. Wir nehmen zunächts an, dass wir nur zwei Gruppen haben, und dass die Beobachtung y als Realisierung einer multivariaten Zufallsvariable Y ∈ Rp betrachtet werden kann, mit Dichten entweder f1 (yy ) oder f2 (yy ). Seiπi die a-prior Wahrscheinlichkeit, dass ein Individuum zur Gruppe i gehört. Man sollte idealerweise die Kosten einer falschen Klassifizierung definiere (z.B. falsch positiv oder falsch negativ bei einer Diagnose): c(i | j) sind die anfallenden Kosten, wenn ein Individuum der Gruppe j fälschliserweise zur Gruppe i zugeordnet wird. Wir definieren den Schwellenwert π2 c(1 | 2) k= π1 c(2 | 1) Die Entscheidungstheorie lehrt, dass folgende Regel für die Zuordnung einer neuen Beobachtung y optimal ist: f1 (yy ) f2 (yy ) f1 (yy ) f2 (yy ) > k dann ordne y zur Gruppe 1 < k dann ordne y zur Gruppe 2 (6.18) Wenn k = 1, dies ist der Fall bei gleichen Kosten und a-priori Wahrscheinlichkeiten, bekommt man das Maximum Likelihood Prinzip: die Beobachtung wird der Gruppe zugeordnet, welche die Wahrscheinlichkeit ihres Auftretens maximiert, was intuitiv sehr vernünftig ist. Wir betrachten nun den Fall von zwei Normalverteilung mit gleicher Kovarianzµ1 , Σ ) oder Y ∼ N(µ µ2 , Σ ). Durch logarithmieren der Dichten matrix, also Y ∼ N(µ bekommt man f1 (yy ) 1 µ1 − µ2 ) − (µ µ1 − µ2 )tΣ−1 (µ µ1 + µ2 ) ln = y tΣ−1 (µ f2 (yy ) 2 47 µ1 − µ 2 ) ∈ Rp und k̃ = ln(k) kann man die Entscheidungsregel (6.18) Mit L = Σ −1 (µ wie folgt formulieren: 1 µ1 + µ 2 ) > k̃ L ty − L t (µ 2 1 µ1 + µ 2 ) < k̃ L ty − L t (µ 2 dann ordne y zur Gruppe 1 dann ordne y zur Gruppe 2 (6.19) µ1 + µ 2 ) ist die lineare Diskriminanz Funktion In den Der Term L ty − 21 L t (µ Anwendungen hat man zwei Trainingdatensätze, d.h. Y 1 und Y 2 (mit n1 bzw. n2 Beobachtungen), für welche die Gruppenzugörigkeit aller n1 + n2 Individuen als gesichert gilt. Man hat ferner die geschätzten Erwartungswerte µ̂1 und µ̂2 und die ’gepoolte’ geschätzte Kovarianzmatrix Σ= Σ̂ 1 Σ1 + (n2 − 1)Σ̂ Σ2 (n1 − 1)Σ̂ n1 + n2 − 2 Man definiert L = Σ̂ Σ L̂ −1 (µ̂1 − µ̂2 ) und verwendet die Entscheidungsregel t 1 t L y − L̂ L (µ̂ µ1 + µ̂ µ2 ) > k̃ L̂ 2 t 1 t L (µ̂ µ1 + µ̂ µ2 ) < k̃ L y − L̂ L̂ 2 dann ordne y zur Gruppe 1 dann ordne y zur Gruppe 2 (6.20) In vielen Anwendungen wählt man c(1 | 2) = c(2 | 1) (keine dramatischen Entscheii de!) und πi = n1n+n (vagues a-priori Wissen) und erzeugt eine Klassifikationsta2 belle mit den bekannten n = n1 + n2 Beobachtungen (wahre versus pronostizierte Gruppenzugehörigkeit) und kann die Güte der Klassifizierung bewerten. Allerdings wird die Güte dabei zu optimistisch bewertet. Falls möglich sollte die Diskriminanzfunktion mit einem Training-Datensatz konstruiert werden und mit einem anderen Datensatz validiert werden. Man kann zeigen, dass die obige Entscheidungsregel equivalent zum Fishers Ansatz der Diskriminanzanalyse ist, welche ohne Annahmen über die multivariate Normalverteilungen und die Gleichheit der Kovarianzmatrizen gültig ist (siehe A. Handl). Eine Verallgemeinerung auf k > 2 ist möglich. Wir nehmen an, dass die Beobµi , Σ i ), i = 1, 2 . . . k verteilt sind, und achtungen in der i-ten Gruppe gemäss N(µ ignorieren die Kosten. man definiert die Score Functionen durch 1 1 Σ−1 y − µ i ) + ln(πi ) Si (yy ) = − ln(det Σ i ) − (yy − µ i )Σ i (y 2 2 Die neue Beobachtung y wird der Gruppe zugeordnet, welchen den grössten Wert Σi . von Si (yy ) hat. Die empirische Version erhält man durch Substitution der µ̂i und Σ̂ 48 6.5 Multidimensional Scaling, MDS Wir betrachten die n × p Datenmatrix Y . Der euklidischer Abstand zwischen der r-ten Beobachtung y r und der s-ten Beobachtung y s ist d2rs = p X (yrk − ysk )2 (6.21) k=1 Wir setzen selbstverständlich voraus, dass dieser Abstand für die spezifische Anwendung vernüftig ist. Es geht hier nur darum, die Grundprinzipien der multivariaten Skalierung zu illustrieren. In der Praxis ist die Definition einer geeigneten Metrik oft die Hauptschwierigkeit. Die n×n Distanzmatrix D wird mittels D rs = drs definiert. Wir brauchen ferner die n × n Matrix B = YY t (6.22) Man hat nach trivialer Rechnung d2rs = brr + bss − 2brs . Ist B bekannt lässt sich D bestimmen. Man kann aber auch von D auf B schliessen, und zwar wie folgt 1. Bilde die Matrix A mit A rs = − 21 d2rs = ars . 2. Bilde die Matrix B mit B rs = brs = ars − ār. − ā.s + ā.. Wir verzichten auf den langen aber elementaren Beweis. Wir führen nun eine Spektralzerlegung durch B = U ΛU t (6.23) In der Praxis ist nur die Matrix der Abstände D bekannt und wir leiten gemäss obigen Verfahren die n × n Matrizen A und B ab. Wir führen nun folgende Spektralzerlegung durch B = U ΛU t (6.24) Wir definieren nun die n × n Matrix Z mittels 1 Z = UΛ 2 (6.25) Nach Konstruktion gilt ZZ t = B und die Matrix D kann als Distanzmatrix zwischen n Individuen in Rn interpretiert werden. Wenn die ersten zwei Eigenwerte von B die anderen klar dominieren (wie in der PCA), kann man die Individuen mit der reduzierten Matrix Z 1 (gebildet mit den entsprechenden Spalten von U und Λ ) in der Ebene darstellen. Tabelle 6.1 gibt die Flug-Distanzen zwischen europäischen Städten wieder und Abbildung 6.1 das entsprechende Bild der multidimensionalen Skalierung, welche der geographische Wirklichkeit recht ähnlich ist. Abbildung 6.2 zeigt das Resultat einer multidimensionalen für eine genetische (nicht euklidische) Distanz zwischen verschiedenen Völkern. Man merke sich, dass in der obigen, “klassischen“, Skalierung, die 2DDarstellung nur bis auf Orientierung eindeutig ist. Ferner gibt es in diesem Fall auch sehr enge Beziehungen zwischen MDS und PCA Auswertung (auf Grund der dualen Beziehungen zwischen den Spektralzerlegungen 4.4 der Matrizen YY t und Y tY , siehe Chatfield). 49 Tabelle 6.1: Distanzen zwischen Städten Athen Berlin Dublin London Madrid Paris Rom Warschau Athen Berlin Dublin London Madrid Paris Rom Warschau 0 1119 1777 1486 1475 1303 646 1013 1119 0 817 577 1159 545 736 327 1777 817 0 291 906 489 1182 1135 1486 577 291 0 783 213 897 904 1475 1159 906 783 0 652 856 1483 1303 545 489 213 652 0 694 859 646 736 1182 897 856 694 0 839 1013 327 1135 904 1483 859 839 0 Abbildung 6.1: Karte auf Grund der Distanzen zwischen Städten 50 Abbildung 6.2: Genetische Distanzen zwischen Völkern 51 Literaturverzeichnis [1] C. Chatfiel, A.J. Collins (1980): Introduction to Multivariate Analysis, Chapman and Hall. [2] R. Christensen (1991): Linear Models for Multivariate, Times Series and Spatial Data, Springer Verlag. [3] R. Gnanadesikan (1977): Statistical Data Analysis of Multivariate Observations, John Wiley Sons. [4] P. Good (2005): Permutation, Parametric, and Bootstrap Tests of Hypotheses. [5] A. Handle (2010): Multivariate Analysenmethoden, Springer Verlag (mit kleinem Anhang über Lineare Algebra). 52